OpenAI ha annunciato il rilascio del modello GPT-5.3-Codex-Spark, segnando un punto di svolta nell'adozione di hardware alternativo per l'inference AI. Questo modello, progettato per lo sviluppo di codice, è il primo di OpenAI a essere eseguito su chip prodotti da Cerebras, anziché sulle tradizionali GPU Nvidia.

Performance e Accessibilità

Codex-Spark offre una velocità di elaborazione superiore a 1.000 token al secondo, un incremento di circa 15 volte rispetto al modello precedente. Per fare un confronto, Claude Opus 4.6 in modalità veloce raggiunge circa 2.5 volte la sua velocità standard di 68.2 token al secondo. Il modello è attualmente disponibile come anteprima di ricerca per gli abbonati a ChatGPT Pro (al costo di 200 dollari al mese) tramite l'app Codex, l'interfaccia a riga di comando e l'estensione VS Code. OpenAI sta gradualmente aprendo l'accesso API a partner di design selezionati.

Dettagli Tecnici

Il modello supporta una finestra di contesto di 128.000 token e, al momento del lancio, gestisce esclusivamente testo. Sachin Katti, responsabile del calcolo presso OpenAI, ha sottolineato l'importanza della collaborazione ingegneristica con Cerebras e l'entusiasmo per l'aggiunta di funzionalità di inference rapida alla piattaforma. Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente, come evidenziato dai framework analitici disponibili su AI-RADAR.

Implicazioni

La scelta di OpenAI di utilizzare hardware Cerebras evidenzia una crescente diversificazione nel panorama dell'hardware per l'intelligenza artificiale. Questa mossa potrebbe portare a una maggiore concorrenza e a nuove opportunità per soluzioni di inference AI ottimizzate per specifici carichi di lavoro.