OpenAI debutta con il silicio Broadcom-TSMC: ora anche i creatori di modelli inseguono l’efficienza hardware

L’idea che un’azienda di software costruisca il proprio hardware non è più un’eccezione, ma la notizia che OpenAI abbia messo in campo un chip progettato su misura per l’inference, con Broadcom e TSMC come partner, aggiunge un tassello a un mosaico già denso di segnali. Il silicio personalizzato smette di essere una prerogativa dei cloud provider: ora tocca ai creatori di modelli, e la mossa parla direttamente alla pancia di chi gestisce carichi reali, soprattutto quando il tema sono costi, latenza e possesso dei dati.

Un chip pensato per l’inference

Non esiste ancora una scheda tecnica ufficiale, ma la collocazione è chiara: il nuovo processore è stato progettato da Broadcom – realtà con decenni di esperienza negli ASIC per data center – e prodotto da TSMC, probabilmente su un nodo avanzato. La destinazione è l’inference, cioè quel momento ripetuto milioni di volte in cui un LLM genera token dopo token. Qui l’efficienza energetica e la banda memoria contano più dei picchi di calcolo in virgola mobile. A differenza delle GPU, un ASIC dedicato può scendere a precisioni ridotte (INT8, FP8) già standard nei chip NVIDIA, ma con un overhead minore e un rapporto token/joule più favorevole. In sostanza, si punta a far funzionare carichi massicci con meno watt e, nel tempo, con un costo per query più basso.

Perché OpenAI si è mossa ora

La dipendenza da NVIDIA è costata cara a tutti i hyperscaler: le GPU H100 sono state a lungo in shortage e il prezzo per ora di calcolo resta alto. Per un servizio come ChatGPT, che serve centinaia di milioni di richieste, anche una piccola riduzione del costo inferenziale si traduce in risparmi enormi. Google ha aperto la strada con le TPU, Amazon con Trainium e Inferentia, Microsoft ha annunciato Maia, e Meta lavora sugli MTIA. OpenAI, finora concentrata sulla logica software, ha deciso di scendere nel silicio per ottimizzare l’esecuzione dei propri modelli – magari con acceleratori che comprendono meglio le caratteristiche dell’architettura GPT. Non è escluso che il chip nasconda logiche custom per l’attenzione sparsa o per specifiche tecniche di quantization, ma in assenza di dettagli ufficiali ogni congettura è prematura.

Cosa cambia per chi guarda al deployment on-premise

Per i lettori di AI-RADAR, la vera domanda non è se il chip girerà nei data center di OpenAI, ma se questa tendenza influenzerà l’hardware disponibile per chi vuole self-hostare i propri LLM. Oggi, il TCO di un’infrastruttura on-premise è dominato dal costo delle GPU e dal loro consumo. Se il mercato dei chip inferenziali custom prende piede, è plausibile che si creino alternative più economiche alle GPU general-purpose. Broadcom ha una lunga storia di ASIC venduti a terzi (si pensi ai chip di rete o storage), quindi non è utopia immaginare che in futuro questi progetti possano essere offerti anche a clienti enterprise.

Per le aziende che devono rispettare il GDPR o che trattano dati sensibili, un chip inferenziale efficiente e acquistabile significherebbe poter eseguire modelli di ultima generazione senza dover ricorrere al cloud, riducendo costi operativi e complessità di audit. Tuttavia, restano aperti i nodi della programmabilità e del supporto software: un ASIC senza un framework maturo rischia di restare inaccessibile ai più. E NVIDIA, con CUDA, ha un fossato enorme. La strada verso un ecosistema on-premise basato su chip custom è ancora lunga, ma il fatto che un pioniere come OpenAI investa nel silicio è un segnale che la direzione è quella.

Un ecosistema che si frammenta, ma con un filo conduttore

La proliferazione di chip personalizzati sta ridisegnando la catena di fornitura. TSMC e Broadcom diventano nodi strategici per chiunque voglia scavalcare NVIDIA. Ma la frammentazione rischia di complicare la vita a chi sviluppa software, che oggi può contare su una piattaforma unificata. L’Europa, e l’Italia in particolare, osservano questi sviluppi da una posizione delicata: abbiamo forte sensibilità alla sovranità dei dati ma poca capacità produttiva di semiconduttori avanzati. In questo scenario, capire come i chip influenzano il TCO e la latenza diventa cruciale. AI-RADAR ha sempre messo in guardia dal considerare il solo prezzo di listino: ogni valutazione deve pesare costo per token, watt dissipati, complessità di gestione e, soprattutto, libertà di spostare il carico nel tempo.

La mossa di OpenAI non è una rivoluzione immediata per i deployment on-premise, ma un termometro che misura la febbre di un’industria in ebollizione. Quando i creatori di modelli iniziano a disegnare il proprio silicio, il messaggio è chiaro: l’hardware è troppo importante per essere delegato completamente a terzi.