Intel ha pubblicato oggi sulla mailing list di GCC le prime patch per preparare il supporto alle AI Compute Extensions (ACE), un set di istruzioni messo a punto insieme ad AMD nell’ambito dell’x86 Ecosystem Advisory Group. Le estensioni sono state concepite per rendere i processori x86 più efficienti nei compiti di intelligenza artificiale, con un’attenzione particolare alle moltiplicazioni matriciali che dominano i carichi di machine learning.

Dal punto di vista tecnico, ACE si presenta come il successore cross-vendor delle Advanced Matrix Extensions (AMX) che Intel aveva introdotto con le CPU Sapphire Rapids. A differenza di AMX, pensato come soluzione proprietaria, ACE nasce con l’impegno congiunto dei due grandi produttori di chip x86, con l’obiettivo di offrire un’interfaccia comune per l’accelerazione AI. Questo approccio ricorda quanto già accaduto con altre estensioni ISA condivise, dove il consenso tra vendor riduce la frammentazione e semplifica la vita agli sviluppatori.

La scelta di partire da GCC è significativa. Il compilatore open source è onnipresente nei sistemi Linux e nei toolchain embedded, e il supporto nativo per ACE consente di compilare codice che sfrutta le nuove istruzioni senza dover ricorrere a compilatori commerciali. I primi test di benchmark di performance arriveranno più avanti, quando il supporto sarà maturo, ma la direzione è chiara: portare una fetta consistente di inference – e in prospettiva anche di fine-tuning leggero – sulle CPU, riducendo la dipendenza da GPU discrete.

Per chi valuta deployment on-premise, la prospettiva è interessante. Molte organizzazioni preferiscono mantenere i dati in casa per ragioni di sovranità, latenze ridotte o TCO prevedibile, ma si scontrano con la disponibilità limitata e i costi delle GPU. Un miglioramento dell’efficienza AI su CPU x86, senza stravolgere l’infrastruttura esistente, abbassa la soglia per eseguire LLM in locale su hardware general-purpose, in particolare per carichi dove la latenza della rete non è tollerabile o dove la compliance impone che i dati non lascino il perimetro aziendale.

Naturalmente, ACE non trasformerà una CPU in un acceleratore specializzato paragonabile a una GPU di fascia alta: i vincoli di banda memoria e il parallelismo restano diversi. Tuttavia, per modelli già quantizzati (ad esempio a INT8 o FP16) e per applicazioni di retrieval augmented generation o di classificazione, il guadagno atteso potrebbe rendere superflua una scheda dedicata in molti scenari edge o di microservizio. La vera partita sarà vedere come i framework di serving e le librerie di inference integreranno queste estensioni, e se AMD seguirà con un supporto altrettanto tempestivo nei propri compilatori.

Le patch inviate sono ancora in fase iniziale – abilitano il riconoscimento delle istruzioni e la generazione del codice base – ma segnano il primo passo concreto dopo la definizione della specifica. Il percorso verso il merge nel ramo principale di GCC richiederà diverse iterazioni, ma già ora il progetto lascia intravedere un ecosistema x86 più unito nell’affrontare la domanda di calcolo AI, spostando parte dell’inference là dove prima era impensabile: direttamente sulla CPU del server che già gestisce l’applicazione.