La nuova edizione della classifica Top500 ha un vincitore inatteso e un primato tecnico che farà discutere i progettisti di infrastrutture di calcolo: LineShine, il supercomputer cinese basato interamente su CPU, ha strappato il primo posto allo statunitense El Capitan, diventando la prima macchina nella storia della graduatoria a sostenere oltre 2 ExaFLOPS di prestazioni in doppia precisione (FP64) senza l’ausilio di GPU.

Non si tratta di un sorpasso marginale. La barriera dei 2 ExaFLOPS era finora appannaggio di sistemi ibridi che combinano processori general‑purpose e acceleratori grafici. LineShine dimostra che un’architettura CPU‑only può competere ai massimi livelli, con implicazioni profonde per chi progetta datacenter scientifici e, sempre più, piattaforme di inference per Large Language Models on‑premise.

L’anatomia di un primato

La classifica Top500 misura le performance in LINPACK, benchmark storico per il calcolo a virgola mobile a 64 bit. Raggiungere 2 EF significa eseguire 2×10^18 operazioni al secondo con precisione piena, un carico di lavoro tradizionalmente affidato a GPU come quelle delle famiglie NVIDIA A100 o H100. LineShine inverte la rotta, puntando su un’enorme densità di core CPU, presumibilmente di architettura avanzata, per scalare orizzontalmente senza colli di bottiglia di memoria o di comunicazione.

L’assenza di acceleratori grafici cambia il profilo dei costi e della complessità di sistema. Meno componenti specializzati significa minore dipendenza da supply chain ristrette, un fattore non secondario in uno scenario geopolitico in cui l’accesso a GPU di fascia alta è oggetto di restrizioni. Per chi gestisce ambienti on‑premise, questo approccio suggerisce che cluster CPU densi possano diventare un’alternativa concreta per calcolo intensivo, specie se abbinati a tecniche di quantization e a framework ottimizzati per l’inference.

Perché interessa anche l’AI on‑premise

Sebbene LINPACK non misuri direttamente le performance AI, il primato di LineShine getta una luce nuova sui deployment di LLM in contesti locali o air‑gapped. La community dell’inference CPU‑based – da llama.cpp a OpenVINO – ha già mostrato che modelli quantizzati a 4 o 8 bit possono girare in maniera efficiente su server multi‑socket senza GPU, riducendo CapEx e consumi energetici. Un supercomputer che scala a oltre 2 EF con sole CPU conferma che l’ecosistema x86 o ARM ha margini di crescita notevoli, anche per carichi di lavoro come l’inference distribuita su larga scala.

I trade‑off restano chiari: la GPU mantiene un vantaggio in termini di throughput per token e di efficienza energetica sui carichi matrice‑vettore tipici dei transformer. Tuttavia, l’evoluzione delle CPU – con istruzioni dedicate alla moltiplicazione di matrici (AMX, SVE) e memorie ad alta larghezza di banda – sta riducendo il gap. Per un’organizzazione che valuta il self‑hosting di un LLM, poter contare su nodi CPU già presenti in datacenter, senza acquistare costose schede acceleratrici, cambia i termini del TCO.

Uno scacchiere globale in movimento

Il sorpasso ai danni di El Capitan è anche un segnale geopolitico. Gli Stati Uniti hanno dominato la Top500 per anni con sistemi come Summit, Sierra e Frontier, spesso basati su GPU NVIDIA o AMD. L’ascesa di un campione CPU‑only made in China testimonia un investimento mirato su architetture alternative, forse per aggirare le limitazioni all’export di semiconduttori.

Dal punto di vista della sovranità dei dati, disporre di supercomputer nazionali senza dipendenze da fornitori esterni rafforza la capacità di elaborare carichi sensibili interamente in casa, un tema centrale anche per aziende europee alle prese con il GDPR. In quest’ottica, LineShine non è solo un record tecnico: è un promemoria che l’hardware per il calcolo su larga scala può seguire traiettorie diverse, con ricadute dirette su chi deve decidere dove e come far girare i propri modelli.

Oltre il benchmark, verso l’operatività

Resta da capire se le performance in LINPACK si tradurranno in efficacia su carichi reali come simulazioni molecolari, fluidodinamica o addestramento di reti neurali. La comunità HPC attende i risultati dei benchmark applicativi, mentre il mercato dei sistemi on‑premise osserva con interesse. Se LineShine confermerà la sua versatilità, la via CPU‑only potrebbe accelerare la diffusione di infrastrutture private per AI, riducendo il lock‑in verso ecosistemi GPU-centrici.

Nel frattempo, la notizia rafforza una convinzione che da tempo guida l’analisi di AI‑RADAR: il deployment locale di modelli linguistici non è un monolite dominato dalle GPU, ma un terreno in rapida evoluzione dove le scelte architetturali vanno pesate caso per caso. LineShine ci ricorda che a volte la strada meno battuta può portare in vetta.