La Cina scala la classifica dei supercomputer con un colosso solo-CPU da 2,198 exaflops, senza GPU

Con un balzo che ha colto di sorpresa molti addetti ai lavori, la Cina ha conquistato la vetta della classifica mondiale dei supercomputer grazie a un sistema che rinuncia completamente alle GPU. Il nuovo campione, capace di 2,198 exaflops di prestazioni sostenute (Rmax), ha messo fine al primato di El Capitan, il sistema statunitense basato su acceleratori AMD e CPU. La notizia ha un sapore particolare in un momento in cui la corsa all’intelligenza artificiale è dominata dalla fame di GPU: qui, invece, non c’è un solo acceleratore specializzato.

L’ascesa del calcolo omogeneo

Il risultato certificato dalla lista TOP500 dimostra che un’architettura composta esclusivamente da decine di migliaia di processori general-purpose può raggiungere le vette dell’exascale senza cedere il passo agli acceleratori vettoriali. Il cuore del sistema è probabilmente basato su design many-core di produzione nazionale, capaci di gestire parallelismo massivo e carichi di lavoro HPC tradizionali, ma anche, come inizia a ipotizzare la comunità, carichi legati all’inference di reti neurali profonde. L’assenza di GPU porta con sé un vincolo: la bandwidth di memoria aggregata resta il fattore critico, perché i processori devono alimentare centinaia di core senza l’ausilio di HBM dedicata come accade sulle schede acceleratrici. Tuttavia, il risultato lascia intravedere scenari in cui la sola CPU, se progettata con un numero di core e una gerarchia di memoria adeguati, può competere su throughput e latenza con cluster GPU di taglia comparabile, specie quando il modello è fortemente quantizzato o quando il collo di bottiglia non è il picco di calcolo ma lo spostamento dei dati.

Cosa cambia per chi guarda all’on-premise

Per le organizzazioni che valutano il deployment di LLM in sede, il messaggio è duplice. Da un lato, la disponibilità di silicio acceleratore rimane incerta, con tempi di consegna che possono superare l’anno per i modelli più richiesti. Dall’altro, i sistemi CPU-only offrono una curva di apprendimento operativo più piatta: non richiedono driver specifici, stack software separati e sono gestibili con tooling ordinario, riducendo la complessità del ciclo di vita. In scenari di inference batch o di fine-tuning leggero, dove il throughput per watt conta più del picco di teraflops, una flotta di server CPU ad alta densità può rappresentare un’alternativa concreta ai nodi GPU, specialmente se abbinata a tecniche di quantization che riducono la pressione sulla banda di memoria.

AI-RADAR segue da tempo l’evoluzione delle architetture destinate a chi cerca sovranità dei dati e controllo diretto sull’hardware. Il caso cinese mostra che l’opzione CPU-only non è solo una scelta di ripiego, ma una strada percorribile per raggiungere prestazioni di fascia HPC rispettando vincoli di budget e di supply chain. Certo, i trade-off restano: la densità computazionale delle GPU moderne rimane superiore su carichi matrix-bound, e l’ecosistema software per il training distribuito su CPU è meno maturo. Ma se il traguardo è servire modelli già addestrati in un contesto aziendale, il divario si assottiglia.

Il fattore geopolitico e la sovranità tecnicica

Dietro il sorpasso c’è anche una spinta strategica. L’amministrazione statunitense ha imposto restrizioni all’esportazione di semiconduttori avanzati verso la Cina, acceleratori in primis. Sviluppare un supercomputer exascale senza GPU diventa così una dichiarazione di autosufficienza. Per le imprese europee e italiane, l’insegnamento è chiaro: la dipendenza da un solo fornitore di silicio per AI introduce un rischio operativo. La diversificazione verso architetture CPU commodity o custom può rientrare nelle valutazioni di TCO a medio termine, specie quando i contratti di manutenzione e la durata dell’hardware si estendono oltre il triennio.

Resta da vedere se questo approccio influenzerà il design dei prossimi sistemi enterprise per carichi AI. I produttori di CPU stanno già integrando unità per il calcolo matriciale e formati numerici ridotti adatti all’inference. Il primato cinese potrebbe accelerare un percorso che porta dalle sale HPC ai rack aziendali, rendendo il self-hosted su CPU una scelta non più di nicchia ma strategicamente fondata.