Le estensioni ACE di Intel e AMD: moltiplicazione di matrici efficiente per l’AI su x86

Non capita tutti i giorni che Intel e AMD mettano da parte la rivalità per spingere assieme un’estensione dell’ISA x86. Eppure il nuovo set di istruzioni ACE, pensato per accelerare i carichi di intelligenza artificiale, arriva proprio da una collaborazione tra le due aziende. L’obiettivo dichiarato: rendere la moltiplicazione di matrici – operazione centrale in ogni rete neurale – più efficiente dal punto di vista energetico e di densità computazionale.

Il cuore dell’ACE: matrici a basso consumo

L’annuncio, trapelato attraverso una roadmap condivisa, descrive le estensioni ACE come un insieme di istruzioni dedicate all’algebra lineare, con un’attenzione particolare al mixed precision e al calcolo parallelo. A differenza di precedenti tentativi come AVX-512 VNNI o persino l’Intel AMX (Advanced Matrix Extensions), ACE sarebbe il primo set sviluppato congiuntamente dai due giganti di Santa Clara e Sunnyvale. Questo dettaglio non è secondario: una base ISA comune evita la frammentazione che ha spesso rallentato l’adozione di acceleratori eterogenei nei data center.

I dettagli tecnici precisi sono ancora sotto embargo, ma la direzione è chiara. La moltiplicazione di matrici riceve nuovi tipi di dato compressi, pipeline ottimizzate e una gestione più granulare dei registri, con un guadagno simultaneo di throughput e di efficienza per watt. In termini pratici, un server x86 equipaggiato con CPU dotate di ACE potrebbe gestire inferenze su modelli quantizzati – ad esempio LLM ridotti a INT8 o FP16 – consumando meno corrente e occupando meno spazio in rack.

Perché le estensioni ACE contano per chi sceglie l’on-premise

Per le organizzazioni che valutano il deployment locale di LLM, l’accelerazione CPU ha un valore strategico preciso. Rispetto alle GPU, i processori x86 sono più facili da reperire, non richiedono alimentazioni speciali e si integrano in infrastrutture di virtualizzazione già esistenti. Il vero freno, finora, è stata la latenza e il throughput modesto su carichi AI sostenuti. Con ACE, quel gap potrebbe ridursi in modo significativo, spostando il punto di pareggio del TCO a favore di architetture basate esclusivamente su CPU per l’inference di modelli di taglia media.

Inoltre, la densità computazionale più alta consente di impacchettare più capacità di calcolo nello stesso spazio fisico, riducendo i costi operativi di un ambiente on-premise. In uno scenario air‑gapped – dove la sovranità dei dati è irrinunciabile – poter contare su CPU standard ma potenziate evita la dipendenza da acceleratori esterni spesso sottoposti a restrizioni di licenza o export control.

Il contesto: x86, ARM e la frammentazione dell’accelerazione AI

L’iniziativa di Intel e AMD arriva mentre ARM spinge i propri ISA con le estensioni SVE e SME, già presenti nei chip Apple M4 e nei prossimi core Neoverse per server. La concorrenza tra architetture si gioca quindi non solo sui core generalisti, ma sulla capacità di gestire calcoli matriciali a basso overhead. Con ACE, l’ecosistema x86 dimostra di voler restare rilevante in uno spazio tradizionalmente dominato da GPU e NPU.

Va però considerato il fattore tempo. L’integrazione in silicio richiederà almeno una generazione di processori prima che le istruzioni siano disponibili a livello commerciale, e la maturazione degli stack software (compilatori, framework come PyTorch e TensorFlow) non sarà immediata. Nel breve termine, l’impatto per chi fa inference on-premise resta teorico, ma il segnale di mercato è inconfondibile: l’AI diventa un carico di lavoro di prima classe anche per le CPU general-purpose.

Oltre l’hype: cosa significa per le scelte di deployment

La vera posta in gioco non è se ACE batterà una GPU su carichi di training – non lo farà – ma se riuscirà a offrire un’efficienza sufficiente per l’inference di LLM in contesti dove i vincoli di budget, spazio e compliance rendono desiderabile un’infrastruttura omogenea. L’analisi del costo totale di possesso, che confronta CapEx e OpEx su più anni, potrebbe premiare server dual‑socket con centinaia di core se questi sapranno gestire token/second paragonabili a quelli di piccole GPU, senza i consumi di potenza delle schede discreti.

In parallelo, la collaborazione tra i due rivali storici su un ISA comune suggerisce che il vero avversario sia altrove: i cloud provider e i loro acceleratori custom (TPU, Trainium, Inferentia) che erodono la base dei chip merchant. Per chi oggi decide di mantenere i carichi AI dentro i propri confini, ACE aggiunge una carta importante da giocare, a patto di non aspettarsi miracoli immediati.