Non è un semplice mega-round. L’iniezione di 800 milioni di dollari in Together AI, guidata da Aramco Ventures con nomi come Nvidia, Vista Equity Partners e General Catalyst, segnala che il mercato dell’inference e del training di modelli open-source su cloud ha superato la fase di nicchia. La valutazione della società, che ora supera gli 8 miliardi di dollari, è figlia di un’accelerazione che Together AI stessa quantifica in oltre un miliardo di dollari di ricavi generati finora – un dato che, pur nella sua genericità, fotografa l’appetito delle aziende per alternative ai giganti proprietari.

La piattaforma offre accesso on-demand a LLM come Llama, Mistral e Falcon, ospitandoli su GPU e gestendo orchestrazione, scalabilità e API. Per molti team, questa è la scorciatoia che evita di affrontare il provisioning hardware e la messa a punto della pipeline. Ma il contesto europeo impone una riflessione più stratificata.

Il nodo della residenza dei dati

Ogni volta che un’azienda con obblighi GDPR o settoriali (sanità, finanza, difesa) sceglie un provider cloud, deve chiedersi dove finiscono fisicamente i pesi del modello e i dati degli utenti. Together AI opera su datacenter distribuiti, ma la garanzia di residenza in territorio UE non è automatica: richiede accordi contrattuali, verifiche tecniche e spesso una fiducia che non tutte le organizzazioni possono concedere. Questo spiega perché molte realtà italiane stiano esplorando deployment on-premise o ibridi, dove l’hardware resta sotto il loro controllo e la latenza dei dati sensibili non attraversa confini giurisdizionali incerti.

GPU, TCO e la pressione dell’open-source

Il finanziamento record mostra anche che la domanda di compute per LLM open-source è reale e in crescita. Ma chi valuta il self-hosting sa che il costo delle GPU non è l’unica variabile: VRAM, bandwidth di memoria e consumo energetico dettano la differenza tra un deployment fluido e uno insostenibile. Together AI assorbe questa complessità e la trasforma in API, ma a lungo termine per carichi prevedibili e dati riservati, il TCO di un cluster on-premise con modelli quantizzati può ribaltare la convenienza.

In questo scenario, la presenza di Nvidia tra gli investitori non è secondaria. Il chipmaker ha tutto l’interesse a vedere esplodere il consumo di GPU, sia via cloud sia in datacenter privati. Ma l’effetto collaterale è una corsa alle forniture che potrebbe allungare i tempi di approvvigionamento anche per chi costruisce infrastrutture locali.

Per chi deve decidere dove far girare i propri LLM, AI-RADAR ha messo a punto framework analitici su /llm-onpremise che aiutano a mappare questi trade-off senza scorciatoie ideologiche. L’ascesa di piattaforme come Together AI non chiude la partita: la rende più articolata, perché il vero spartiacque non è tra cloud e on-premise, ma tra chi può permettersi di delegare la sovranità dei dati e chi no.