Jalapeño: il chip di OpenAI e Broadcom per l’inference LLM su scala industriale

Non arriva con il botto di una GPU da gaming o di un acceleratore per il training, eppure il nuovo chip di OpenAI e Broadcom potrebbe cambiare le carte in tavola per chi gestisce carichi di inference massivi. Si chiama Jalapeño, ed è stato pensato fin dal silicio per servire modelli linguistici su scala data center. L’annuncio, stringato nei dettagli, segna l’inizio di una collaborazione a lungo termine che promette iterazioni future sempre più raffinate.

Un chip disegnato per l’inference, non per il training

The maggior parte delle GPU in commercio nasce per carichi di lavoro generici, dal rendering alla simulazione scientifica, e solo in un secondo momento viene adattata all’inference di LLM. Jalapeño ribalta la prospettiva: un ASIC (circuito integrato specifico per applicazione) che elimina ogni overhead non necessario, concentrando transistor e banda di memoria sull’unica operazione che conta quando si risponde a milioni di prompt al secondo: la moltiplicazione matrice-vettore a bassa latenza. Niente unità grafiche, niente backplane di visualizzazione: solo ciò che serve a trasformare token in token nel minor tempo possibile e con il minor consumo energetico.

Questa specializzazione è un classico nel mondo dei semiconduttori. Quando un carico di lavoro diventa sufficientemente stabile e prevedibile, abbandonare la flessibilità di una CPU o GPU generalista per abbracciare un design dedicato può ridurre il costo per query anche di un ordine di grandezza. Google con le sue TPU e AWS con Trainium e Inferentia hanno già tracciato la strada. Jalapeño porta questo approccio nell’orbita di OpenAI, storicamente legata alle GPU NVIDIA per l’operatività dei suoi modelli.

Cosa significa per i data center e per il TCO

Per un operatore di data center, l’adozione di chip dedicati all’inference tocca direttamente il TCO. Meno watt per token equivalgono a bollette elettriche più leggere, minor dissipazione termica e rack più densi. In uno scenario in cui la domanda di inference cresce a doppia cifra trimestre dopo trimestre, anche un miglioramento percentuale nell’efficienza energetica si traduce in risparmi consistenti su scala facility.

Broadcom porta in dote l’esperienza nella produzione di chip custom per grandi clienti enterprise e cloud. L’ipotesi più plausibile è che Jalapeño venga offerto inizialmente attraverso l’infrastruttura cloud di OpenAI, ma il comunicato non esclude un futuro accesso diretto al mercato OEM. Se così fosse, i fornitori di soluzioni on-premise – dalle banche alle pubbliche amministrazioni con requisiti stringenti di sovranità dei dati – potrebbero valutare l’integrazione di questi acceleratori nei propri rack, a patto di poterli acquistare e gestire con i propri stack software.

L’anello mancante per l’on-premise?

Chi oggi valuta un deployment self-hosted di LLM si scontra con una realtà spigolosa: le GPU con sufficiente VRAM costano care, consumano molto e spesso arrivano a singhiozzo. Un chip ottimizzato per l’inference, se reso disponibile al di fuori dei circuiti cloud proprietari, aprirebbe uno spazio di manovra nuovo. Per carichi di lavoro prevedibili – assistenti virtuali interni, analisi documentale, automazione di processi – l’efficienza dichiarata di Jalapeño potrebbe abbassare la soglia di ingresso, riducendo il CapEx e semplificando la gestione termica di un data center aziendale.

Certo, restano incognite: il supporto software, la compatibilità con framework di serving come vLLM o TGI, e la capacità di gestire diverse dimensioni di modello e quantization. Una GPU può adattarsi a FP16, INT8, e a tecniche di attention ottimizzata con relativa facilità; un ASIC richiede che tutto questo sia previsto in fase di design. La roadmap a lungo termine annunciata da OpenAI e Broadcom lascia intendere che le generazioni successive colmeranno eventuali lacune, ma la prima iterazione andrà osservata con attenzione.

Il contesto più ampio: la frammentazione dell’hardware AI

L’annuncio di Jalapeño si inserisce in una tendenza ormai consolidata: la proliferazione di silicio specializzato per l’AI. NVIDIA mantiene il dominio con le sue GPU e i recenti Blackwell, ma startup come Groq e Cerebras spingono su architetture radicalmente diverse, mentre i hyperscaler continuano a sfornare chip proprietari. In questo scenario, la scelta dell’hardware diventa sempre più una decisione architetturale di lungo periodo, che lega a un ecosistema di tooling, driver e pipeline di deployment.

Per le organizzazioni che mettono la sovranità dei dati al primo posto, la direzione è chiara: diversificare i fornitori e valutare i trade-off con strumenti analitici solidi. Su AI-RADAR, il framework dedicato ai deployment on-premise aiuta a soppesare proprio queste variabili, dall’efficienza per token alla maturità del supporto software.

Nel frattempo, il nome Jalapeño – un peperoncino – suggerisce che OpenAI e Broadcom non hanno intenzione di passare inosservate. La sfida è servire l’inference su scala planetaria senza scottarsi con i costi. E per chi segue le logiche del self-hosting, è un segnale da non ignorare.