La notizia arriva come un tuono in una Silicon Valley già elettrizzata dall'intelligenza artificiale: Baseten, startup californiana specializzata in servizi di inference per LLM, sarebbe a un passo dal chiudere un round di finanziamento da 1,5 miliardi di dollari, con una valutazione che schizza a 13 miliardi. L'operazione, riportata da fonti vicine al dossier, arriva a pochi mesi dal precedente maxi round e conferma che la «corsa all'oro dell'inference» è più viva che mai.

Un investimento che pesa

Baseten non è un nome nuovo per chi segue le infrastrutture AI. L'azienda offre una piattaforma cloud che consente di eseguire modelli di grandi dimensioni senza dover gestire l'hardware sottostante. Un modello di business che, in un'epoca in cui le GPU scarseggiano e i costi di training esplodono, sta attirando capitali enormi. Il nuovo round, se confermato, porterebbe il totale raccolto dalla società a livelli da unicorno di prima fascia, segnalando che gli investitori credono nella domanda crescente di inference as a service.

Ma cosa c'è dietro queste cifre? La logica è semplice: mentre il training dei modelli resta appannaggio di pochi grandi player, l'inference – cioè la fase in cui i modelli producono risposte – sta diventando il vero collo di bottiglia per la diffusione di massa. Servire milioni di richieste al secondo con latenze accettabili richiede infrastrutture ottimizzate, e Baseten si propone come strato intermedio tra i modelli e le applicazioni aziendali.

Il nodo del controllo: on-premise o cloud?

Per le organizzazioni che valutano il deployment di LLM, la notizia pone interrogativi concreti. Affidarsi a un servizio come Baseten significa delegare l'infrastruttura di inference a un terzo, con vantaggi in termini di scalabilità e OpEx prevedibile. Ma per chi ha requisiti stringenti di sovranità dei dati, conformità GDPR o settori regolamentati, il cloud pubblico non è sempre una strada percorribile.

Qui entra in gioco il trade-off classico: da un lato, l'on-premise – o più in generale il self-hosted – garantisce controllo totale su modelli, dati e pipeline, evitando vincoli contrattuali e costi variabili imprevedibili. Dall'altro, richiede investimenti iniziali (CapEx) significativi in hardware specializzato, competenze interne per l'orchestrazione (da Kubernetes a framework come vLLM) e la gestione della capacità computazionale, specie quando si lavora con modelli a lungo contesto o in quantization INT8/FP16 che strizzano le GPU fino all'ultimo GB di VRAM.

Il boom dei servizi di inference come Baseten spinge il mercato verso una maturità che, indirettamente, può favorire anche il deployment on-premise. La concorrenza sta abbassando il costo per token e spingendo sull'efficienza dei runtime: progressi che, in molti casi, sono trasferibili in-house. Aziende che oggi scelgono il cloud possono domani migrare verso architetture ibride o interamente self-hosted, se i numeri lo giustificano.

Uno sguardo al 2025 e oltre

Al di là della cifra record, il round di Baseten è il termometro di un settore che si sta strutturando rapidamente. L'inference come utility, simile all'elettricità, sta diventando una commodity, ma con differenze sostanziali: i modelli cambiano, i carichi di lavoro sono eterogenei e la latenza è un fattore competitivo. Per i decisori IT, la sfida è costruire un'architettura capace di assorbire l'innovazione senza rimanere intrappolati in un singolo fornitore.

La redazione di AI-RADAR seguirà gli sviluppi, offrendo strumenti analitici su /llm-onpremise per navigare queste scelte. La vera domanda non è se l'inference as a service crescerà, ma come le imprese riusciranno a bilanciare flessibilità e controllo in un panorama dove i capitali corrono più veloci della tecnicia.