Se fino a ieri miniaturizzare significava rimpicciolire il tratto, da oggi circa, significa anche impilare. IBM ha tolto i veli alla nanostack transistor architecture, una roadmap che guarda dritto all’era sub-1nm prevista per gli anni 30. Non un semplice restyling del FinFET o del gate-all-around, ma un’iniezione di terza dimensione: lo stacking di wafer per costruire chip più alti, e solo così più densi.

La fine della rincorsa planare

Da decenni l’industria dei semiconduttori rincorre la Legge di Moore spingendo la litografia verso geometrie sempre più fini. A ridosso del nanometro, però, i fenomeni quantistici e la dissipazione termica hanno trasformato ogni step in un esercizio di equilibrismo. Con nanostack, IBM cambia strategia: invece di continuare a scavare in piano, costruisce verticalmente. L’approccio prevede l’impilaggio di strati di transistor su più livelli, aumentando la densità logica senza dover per forza comprimere ulteriormente le dimensioni laterali.

Il timing è indicativo: l’orizzonte è il 2030 e oltre, un periodo in cui i nodi sotto il nanometro richiederanno materiali e architetture radicalmente nuovi. Lo stacking non è una novità assoluta — memorie 3D NAND e packaging avanzato lo usano già — ma portarlo a livello di transistor logici su scala produttiva è un’altra partita.

Densità per l’inference on-premise

Per chi oggi valuta deployment AI lontano dal cloud, la densità dei transistor non è un esercizio accademico. Chip più densi, a parità di area, offrono più core, più SRAM, più acceleratori: risorse che si traducono in finestre di contesto più ampie, inference a latenza ridotta e la possibilità di tenere modelli LLM interamente in locale senza saturare il budget termico del data center. Se nanostack manterrà le promesse, l’hardware che arriverà nei rack della prossima decade potrebbe eseguire carichi oggi impensabili senza dover cedere dati a servizi esterni.

La sovranità del dato, del resto, non si compra solo con le policy: si costruisce con il silicio. Ogni salto di densità riduce il costo per token processato on-premise e allontana la soglia oltre la quale conviene cedere alla nuvola. IBM non parla ancora di consumi o di specifiche di processo, ma l’idea stessa di impilare strati logici apre a un TCO potenzialmente più favorevole per chi gestisce infrastrutture bare metal.

Il nodo della complessità produttiva

Architetture 3D portano in dote anche problemi nuovi. Il calore intrappolato tra gli strati, le tolleranze di allineamento, la resa per wafer: ogni step di stacking aumenta la complessità di fabbricazione e, nel breve periodo, il costo. La ricerca IBM servirà proprio a sciogliere questi nodi prima che la tecnicia diventi commerciale. Nel frattempo, il messaggio è chiaro: la fine della miniaturizzazione planare non è la fine della crescita di prestazioni. È solo l’inizio di una fase in cui conterà sempre di più come si mettono insieme i mattoni, non solo quanto sono piccoli.

Per chi segue l’evoluzione del deployment on-premise, la lezione è netta. Le scelte infrastrutturali fatte oggi con GPU e acceleratori attuali andranno ripensate quando architetture verticali entreranno nei server. L’elasticità del software — containerizzazione, framework di serving, orchestrazione — dovrà fare i conti con hardware che distribuisce il calore e la memoria in modo inedito. AI-RADAR segue con attenzione questi sviluppi, perché la prossima generazione di chip non sarà solo più piccola: sarà stratificata, letteralmente.