L'Inference AI ridefinisce il mercato dei chip: nuove opportunità per le startup

Il panorama dell'intelligenza artificiale sta vivendo un punto di svolta significativo. L'attenzione si sposta sempre più dalla fase di training dei nuovi modelli alla loro messa in servizio, o inference. Questo cambiamento di focus rappresenta un'opportunità cruciale per le startup che operano nel settore dei chip AI, desiderose di ritagliarsi una fetta di mercato tradizionalmente dominata da giganti come Nvidia. A differenza del training, l'inference presenta carichi di lavoro molto più eterogenei, richiedendo un mix variabile di capacità di calcolo, memoria e banda. Questa diversità apre la strada a soluzioni hardware specializzate, capaci di affrontare specifiche esigenze con maggiore efficienza.

Architetture Eterogenee per Carichi di Lavoro Diversificati

La crescente eterogeneità dell'inference ha portato allo sviluppo di architetture disaggregate, dove diverse componenti hardware gestiscono fasi specifiche del processo. Un esempio lampante è l'approccio adottato da Nvidia con l'acquisizione di Groq. I processori LPU (Language Processing Unit) di Groq, caratterizzati da un'architettura ricca di SRAM, eccellono nella generazione di token (la fase di decode), superando le GPU in velocità. Tuttavia, la loro capacità di calcolo limitata e la tecnicia meno recente ne compromettevano la scalabilità. Nvidia ha risolto questo vincolo spostando la fase di prefill, più intensiva dal punto di vista computazionale, sulle proprie GPU, mantenendo le operazioni di decode, vincolate dalla banda, sui nuovi LPU.

Questa combinazione non è un'esclusiva di Nvidia. Anche AWS ha annunciato una piattaforma di calcolo disaggregata che impiega i propri acceleratori Trainium per il prefill e gli acceleratori wafer-scale di Cerebras Systems per il decode. Persino Intel ha esplorato questa strada, proponendo un design di riferimento che utilizza GPU per il prefill e le nuove RDU (Reconfigurable Dataflow Unit) di SambaNova per il decode. Finora, la maggior parte dei successi delle startup di chip AI si è concentrata sul lato decode, dove la velocità della SRAM, pur non essendo particolarmente capiente, si rivela un vantaggio decisivo.

L'Innovazione Oltre il Silicio: Gli Acceleratori Ottici

Le startup non si limitano però a ottimizzare le architetture basate sul silicio. Lumai, ad esempio, ha presentato il suo acceleratore di inference ottico, che sfrutta la luce anziché gli elettroni per eseguire le operazioni di moltiplicazione di matrici, fondamentali per la maggior parte dei carichi di lavoro di machine learning. Questa architettura ibrida elettro-ottica promette un consumo energetico significativamente inferiore rispetto alle soluzioni puramente digitali. Lumai prevede che i suoi sistemi Iris Tetra di prossima generazione raggiungeranno un exaOPS di performance AI con un budget energetico di soli 10kW entro il 2029.

Inizialmente, l'azienda posiziona il chip come alternativa standalone alle GPU per carichi di lavoro di inference intensivi dal punto di vista computazionale, come il batch processing. A lungo termine, Lumai intende utilizzare i suoi acceleratori ottici anche come processori per il prefill. Sebbene l'architettura sia ancora nelle fasi iniziali di sviluppo, è già in grado di eseguire modelli con miliardi di parametri, come Llama 3.1 8B o 70B. La startup britannica ha già aperto i suoi chip a neocloud e hyperscaler per la valutazione, indicando un potenziale interesse per deployment su larga scala.

Un Approccio Alternativo e le Implicazioni per il Deployment

Non tutte le startup di chip AI condividono l'entusiasmo per le architetture disaggregate. Tenstorrent, ad esempio, ha presentato le sue piattaforme di calcolo RISC-V-based Galaxy Blackhole, e il CEO Jim Keller ha espresso scetticismo verso la formula dell'inference disaggregata. "Ogni azienda nel settore si sta unendo per costruire l'acceleratore dell'acceleratore dell'acceleratore. Le CPU eseguono codice. Le GPU accelerano le CPU. Le TPU accelerano le GPU. Le LPU accelerano le TPU. E così via. Questo porta a soluzioni complesse che difficilmente saranno compatibili con i cambiamenti nei modelli e negli usi dell'AI. In Tenstorrent, abbiamo pensato che una soluzione più generale e semplice avrebbe funzionato meglio," ha dichiarato.

Questa prospettiva evidenzia un dibattito fondamentale nel settore: la ricerca della massima efficienza attraverso la specializzazione spinta contro la necessità di generalità e semplicità per garantire compatibilità e longevità. Per CTO, responsabili DevOps e architetti infrastrutturali che valutano le opzioni di deployment, specialmente in contesti self-hosted o on-premise, è cruciale considerare questi trade-off. La scelta tra architetture altamente specializzate e soluzioni più versatili può influenzare non solo il Total Cost of Ownership (TCO) e le performance attuali, ma anche la capacità di adattarsi a futuri modelli e carichi di lavoro AI, nonché le esigenze di sovranità dei dati e air-gapped environments. AI-RADAR offre framework analitici su /llm-onpremise per approfondire la valutazione di questi complessi scenari.