OpenAI presenta Jalapeño: il primo processore custom per l’inference LLM con Broadcom

OpenAI ha tolto i veli al primo chip su misura della sua storia. Si chiama Jalapeño, e nasce da una collaborazione con Broadcom con un obiettivo dichiarato: servire al meglio i carichi di inference dei grandi modelli linguistici (LLM). L’annuncio, per ora privo di dettagli sulle specifiche tecniche, rappresenta comunque un punto di svolta per la società californiana, che fino a oggi si era appoggiata quasi esclusivamente alle GPU di NVIDIA per alimentare servizi come ChatGPT e le API della piattaforma.

Perché un silicio custom per l’inference

L’inference degli LLM pone esigenze diverse rispetto all’addestramento. Mentre il training richiede potenza di calcolo bruta e interconnessioni velocissime, la fase di risposta ai prompt – quella che consuma gran parte delle risorse nel lungo periodo – punta su latenza minima, throughput elevato ed efficienza energetica. Le GPU generaliste, per quanto flessibili, non sono progettate esclusivamente per le operazioni matriciali e i meccanismi di attenzione tipici dei transformer. Un chip custom, o ASIC, può invece integrare acceleratori dedicati e snellire il flusso di dati, riducendo il costo per token generato e il consumo elettrico complessivo.

Questo non significa che le GPU spariranno. La flessibilità resta un vantaggio cruciale quando si sperimentano architetture diverse o si esegue fine-tuning. Ma per carichi di inference stabili e su larga scala, come quelli che OpenAI gestisce quotidianamente, un processore ritagliato sulle proprie necessità può tradursi in risparmi significativi e maggiore controllo.

Broadcom, l’alleato industriale

La scelta di Broadcom come partner non sorprende chi segue il mercato dei semiconduttori. L’azienda americana è già il braccio operativo dietro i TPU di Google, un altro esempio celebre di silicio custom per l’intelligenza artificiale. Broadcom fornisce il know-how ingegneristico e la capacità produttiva (con l’appoggio di fonderie come TSMC), mentre il cliente mantiene la proprietà intellettuale sul design. Un modello che consente a OpenAI di entrare nell’arena hardware senza dover costruire da zero una divisione di progettazione chip.

Al momento, Jalapeño è destinato esclusivamente ai sistemi interni di OpenAI. Non ci sono indicazioni su un’eventuale commercializzazione del processore o su licenze a terzi. Tuttavia, l’ingresso di un attore del peso di OpenAI nel mondo dei chip custom rafforza un trend già evidente: la ricerca di alternative alle GPU per contenere i costi operativi e guadagnare indipendenza dalla supply chain.

Autonomia hardware e ricadute sul Self-hosted

La notizia ha un rilievo che va oltre i confini di OpenAI. Per le imprese e i centri di ricerca che valutano deployment on-premise di LLM, l’efficienza energetica e il costo totale di possesso (TCO) sono fattori determinanti. Chip specializzati promettono di abbassare la barriera economica, rendendo più sostenibile l’esecuzione di modelli anche su scala ridotta, in data center privati o in configurazioni air-gapped, dove requisiti di privacy e sovranità dei dati impongono che tutto rimanga in casa.

Non è un caso che AI-RADAR dedichi approfondimenti proprio a questi scenari: la scelta tra GPU flessibili e acceleratori specializzati è uno dei cardini delle strategie di deployment self-hosted. Un chip come Jalapeño, se mai dovesse ispirare prodotti disponibili sul mercato, potrebbe ridefinire l’equilibrio tra prestazioni, consumi e costi, spingendo più organizzazioni verso architetture locali.

Occorre però tenere a mente un trade-off importante: un ASIC è ottimizzato per un insieme ristretto di modelli e operazioni. Cambiare modello, aggiornare l’architettura di rete o applicare tecniche di quantization particolari potrebbe richiedere modifiche hardware o un nuovo chip. In un settore dove i LLM evolvono rapidamente, questa rigidità non va sottovalutata.

Una tessera del mosaico più ampio

Jalapeño è solo l’ultimo tassello di una ridefinizione dell’infrastruttura per l’intelligenza artificiale. Da AWS (Trainium, Inferentia) a Meta (MTIA), passando per Microsoft e le voci su un suo chip custom, tutti i grandi player stanno investendo in hardware dedicato. Per i professionisti italiani che progettano architetture AI, tenere d’occhio queste evoluzioni non è esercizio di stile: significa anticipare scenari in cui la disponibilità di silicio specializzato a costi accessibili potrebbe sbloccare progetti oggi considerati troppo onerosi.

OpenAI, dal canto suo, non ha ancora rivelato le performance di Jalapeño né quando entrerà in produzione su larga scala. Ma il solo fatto che abbia scelto di scendere in campo con un chip proprietario dice molto sulla direzione del mercato: l’era dell’hardware general-purpose per l’AI non è al tramonto, ma sta entrando in una fase di convivenza con soluzioni su misura. E per chi corre in casa, ogni alternativa può fare la differenza.