Il primo chip di OpenAI: Jalapeño, ASIC inference reticle-size sviluppato con Broadcom in 9 mesi

La notizia era nell'aria, ma la concretezza del silicio cambia tutto. Jalapeño non è solo il primo chip di OpenAI: è un ASIC inference dalle dimensioni massime consentite dal reticolo litografico, partorito in appena nove mesi con la collaborazione di Broadcom. Una scommessa ingegneristica che ribalta le carte in tavola per chiunque gestisca carichi di inference su larga scala.

Un gigante di silicio nato per l'inference

Il termine "reticle-size" indica che il die del processore occupa l'intera area reticolare esponibile in un singolo passo litografico — tipicamente intorno agli 800 mm² sui nodi produttivi avanzati. Non è un dettaglio da poco: significa che Jalapeño integra una quantità straordinaria di transistor, core di calcolo specializzati e, con ogni probabilità, memoria ad alta larghezza di banda (HBM) per alimentare i motori di inference senza colli di bottiglia. OpenAI non ha ancora diffuso specifiche di throughput o consumo, ma la scelta dell'ASIC — circuito integrato specifico per applicazione — parla di un'architettura disegnata attorno a modelli transformer, con pipeline dati ottimizzate per il serving di LLM.

Broadcom ha portato il know-how nella progettazione di ASIC su misura per clienti enterprise, mentre OpenAI ha messo sul piatto i carichi di lavoro reali: l'esecuzione di GPT-4 e dei modelli futuri. Il risultato è un acceleratore che non spreca un solo transistor in funzioni di training: tutta la superficie del die è votata all'inference a bassa latenza e alta densità di token al secondo.

Perché OpenAI accelera sul silicio custom

La dipendenza da Nvidia cominciava a pesare. Ogni nuova generazione di GPU H100 o B200 porta con sé prestazioni impressionanti, ma anche costi di acquisto e operativi che lievitano, senza contare la concorrenza per l'approvvigionamento. Un processore inference sviluppato internamente — anche se fisicamente prodotto da Broadcom — offre a OpenAI il controllo sull'intero stack hardware-software: può modellare le pipeline di calcolo sugli esatti pattern dei propri modelli, riducendo il TCO per token servito e aumentando la prevedibilità delle performance in produzione.

Inoltre, un chip inference dedicato permette di disaccoppiare la fase di ricerca e training (che resterà legata a soluzioni general-purpose come le GPU) da quella di serving, dove contano efficienza energetica e costi operativi. È la stessa logica che ha spinto Google a sviluppare le TPU, Amazon gli Inferentia e Microsoft i Maia: il modello as-a-service si regge su margini che dipendono dal costo dell'inference.

Cosa cambia per chi fa deployment on-premise

Per le organizzazioni che valutano scenari di deployment on-premise di LLM — per motivi di sovranità dei dati, latenza o compliance — l'arrivo di processori inference ottimizzati ridisegna l'equazione. Un ASIC su misura, eventualmente disponibile in formati standard (PCIe, mezzanine OAM), potrebbe diventare il tassello per costruire nodi di inference locali con consumi e costi di gestione inferiori rispetto a un cluster di GPU general-purpose. La densità computazionale di un die reticle-size e l'integrazione stretta con HBM fanno immaginare una capacità di servire modelli di grandi dimensioni con un footprint hardware ridotto, un fattore che in ambito on-premise si traduce in minori requisiti di alimentazione, raffreddamento e spazio rack.

Non va dimenticato che l'azienda che controlla il silicio controlla anche le tempistiche di aggiornamento e le ottimizzazioni software. Questo è particolarmente rilevante per realtà che operano in settori regolamentati: poter eseguire inference su hardware certificato, senza dati che escano dal perimetro aziendale, è un requisito sempre più stringente. Per chi valuta queste architetture, AI-RADAR offre strumenti di analisi sui trade-off tra GPU commodity e accelerator custom nella sezione llm-onpremise.

La corsa al silicio proprietario è appena iniziata

Il caso Jalapeño dimostra che il ciclo di sviluppo di un ASIC ad alte prestazioni si sta comprimendo drasticamente. Nove mesi per portare un chip reticle-size dall'idea al tape-out sono un segnale forte per l'intero ecosistema: la progettazione custom non è più appannaggio esclusivo dei giganti consolidati, ma può diventare una leva competitiva anche per aziende focalizzate sui modelli.

Certo, restano domande aperte: quale processo produttivo è stato utilizzato, quale sarà il costo per unità, e se OpenAI intenda usare Jalapeño esclusivamente nei propri data center o renderlo disponibile tramite partnership cloud. Ma una cosa è chiara: il mercato dell'inference hardware si sta frammentando, e la moltiplicazione di soluzioni specializzate promette di ridurre il costo per token — un vantaggio che, prima o poi, arriverà anche a chi costruisce deployment locali e sovrani.