SambaNova punta a 10 miliardi di dollari: l'inference AI low-cost guida la crescita

In un mercato dominato da Nvidia e dai suoi GPU per l'intelligenza artificiale, la notizia che SambaNova Systems punti a una valutazione di dieci miliardi di dollari non è un semplice annuncio finanziario. È un termometro di quanto sia cresciuta la fame di inference economica per i Large Language Models (LLM), e di come l'industria stia cercando disperatamente alternative percorribili.

La società californiana, fondata da visionari del calcolo parallelo e della silicon valley, è nota per un approccio radicalmente diverso: invece di adattare le GPU ai carichi di lavoro AI, costruisce processori chiamati Reconfigurable Dataflow Unit (RDU) da zero, ottimizzati per far girare modelli di grandi dimensioni con un consumo energetico e un costo per token significativamente inferiori rispetto ai tradizionali acceleratori grafici.

La notizia del round di finanziamento – che i rumour danno come imminente – rappresenta un punto di svolta. Dieci miliardi di dollari non sono un traguardo casuale: significano che gli investitori scommettono su una tecnicia capace di scalzare lo strapotere di Nvidia nel segmento inference, quello in cui le aziende spendono la maggior parte dei budget operativi dell'AI.

Perché il costo del token è diventato il nuovo campo di battaglia

Fino a poco tempo fa, il dibattito era concentrato sull'addestramento: chi aveva il cluster più grande, chi riusciva a far correre un modello da centinaia di miliardi di parametri. Oggi, con la proliferazione di modelli open source e la diffusione a tappeto di assistenti basati su LLM, l'inference – cioè l'atto di utilizzare il modello per rispondere a ogni singola richiesta – è diventata la voce di spesa dominante. Non è un caso che il mercato guardi con interesse a soluzioni che promettano di abbattere il costo per token.

SambaNova si inserisce in questo contesto con una scommessa architetturale precisa: un flusso di dati riconfigurabile via software, che adatta la disposizione dei transistor in base alla topologia del modello. Non si tratta di un semplice chip. È un intero sistema, DataScale, che include hardware, software e networking, pensato per il deployment enterprise. L'azienda ha costruito una reputazione solida nel mondo dei laboratori di ricerca e delle grandi banche, dove la necessità di eseguire LLM senza dipendere dal cloud pubblico è vitale per questioni di sovranità dei dati e latenza.

Fuori dal monopolio GPU: l'on-premise trova nuovi alleati

Chi opera in ambienti on-premise o air-gapped – banche, strutture sanitarie, enti governativi – conosce bene il problema: le GPU Nvidia di fascia alta non sono solo costose, ma spesso difficili da reperire e da raffreddare. Un sistema come DataScale promette di gestire carichi di inference con un'occupazione fisica e un consumo energetico inferiori, riducendo il Total Cost of Ownership (TCO) su scala pluriennale.

Non va dimenticato che il TCO non è solo l'hardware. Comprende l'energia, la manutenzione, lo spazio rack, e soprattutto il costo del personale specializzato. In questo senso, l'offerta di SambaNova – che propone una pila integrata e un'esperienza quasi gestita – mira a semplificare l'operatività, rendendo l'on-premise non solo un obbligo di compliance ma una scelta economicamente sostenibile.

La ricerca di una valutazione a dieci cifre suggerisce che i clienti stanno iniziando ad abbracciare queste logiche. Per chi segue le dinamiche del deployment locale, è un segnale che le alternative alla GPU stanno uscendo dalla fase sperimentale e si avvicinano a quella di adozione su larga scala.

Il segnale per l'industria: non esiste un solo silicio per l'AI

La notizia contiene anche un messaggio più ampio: l'era del "one-size-fits-all" nel silicio per AI sta per finire. Così come Nvidia ha sfruttato la sua architettura CUDA per il training, nuovi attori stanno ritagliandosi nicchie – e non piccole – nell'inference. SambaNova non è sola: Graphcore, Cerebras, Groq e altri stanno tutti competendo per dimostrare che un'architettura dedicata può battere il general-purpose.

Per gli osservatori dell'AI on-premise, questo moltiplicarsi di opzioni è una buona notizia. Significa maggiore potere negoziale, prezzi più bassi e la possibilità di scegliere il ferro giusto in base al carico di lavoro, senza restare intrappolati in un unico ecosistema vendor. Tuttavia, introduce anche complessità: la mancanza di standard consolidati e la necessità di valutare a fondo ogni soluzione sono ostacoli concreti. Strumenti analitici come quelli che AI-RADAR dedica al confronto tra opzioni on-premise diventano allora imprescindibili per navigare la transizione.

Oltre la valutazione: cosa guardare nei prossimi mesi

La cifra di dieci miliardi è solo un punto di partenza. L'interesse degli investitori dovrà tradursi in contratti, implementazioni e casi d'uso documentati. La prossima mossa sarà osservare se SambaNova riuscirà a scalare la produzione e a soddisfare la domanda senza intoppi. In un settore dove gli annunci di chip miracolosi si sono spesso scontrati con la dura realtà della fabbricazione, la prova del fuoco è sempre la disponibilità in volumi.

Per l'ecosistema italiano e europeo – sempre più attento alla sovranità digitale e alla riduzione delle dipendenze – la possibilità di accedere a hardware moderno per l'inference a costi accessibili potrebbe accelerare i piani di adozione LLM in settori come la pubblica amministrazione, la manifattura e la sanità. Sarà interessante vedere se le promesse di bassi consumi energetici si tradurranno in risparmi concreti anche nelle bollette elettriche dei data center locali.