Inference in Europa: il vuoto per i modelli cinesi come GLM 5.2

La segnalazione arriva da un utente di Reddit, ma il cuore del problema è strategico: su Openrouter, la piattaforma che aggrega provider di inference per LLM, il modello cinese GLM 5.2 è servito da sedici fornitori. L’elenco comprende z.ai, Wafer, NovitaAI, Ambient, Together, Cloudflare, Fireworks, Friendli, Parasail, AtlasCloud, StreamLake, io.net, DeepInfra, Morph, Phala e SiliconFlow. Tutti hanno datacenter negli Stati Uniti o, in due casi, a Singapore e in Cina. Nessuno in Europa.

La domanda dell’autore del post è diretta: esistono provider europei per modelli open-weight, in particolare quelli cinesi come GLM 5.2 e DeepSeek V4 Flash? La risposta, guardando Openrouter, è no. E la questione va ben oltre la curiosità di un appassionato.

L’assenza europea nel mercato dell’inference

Openrouter funziona da marketplace: aggrega decine di servizi di inference, consentendo agli sviluppatori di scegliere il provider in base a prezzo, latenza e disponibilità. Per modelli occidentali, la presenza europea non manca (pensiamo a Mistral o alle istanze AWS/GCP in regioni EU). Ma per i modelli cinesi a pesi aperti, il vuoto è quasi totale. I provider che li eseguono — Cloudflare, Together, Fireworks e gli altri — operano prevalentemente su infrastruttura statunitense o asiatica.

Questo non è un dettaglio tecnico, ma un indicatore di mercato. I modelli cinesi stanno guadagnando terreno per capacità e costo: GLM 5.2 e DeepSeek V4 Flash offrono prestazioni competitive in ambiti come la generazione di codice e il ragionamento. Tuttavia, la loro adozione in Europa si scontra con un ostacolo infrastrutturale: manca un’offerta di inference locale.

Sovranità digitale e nodi irrisolti

Per un’azienda europea che voglia integrare questi modelli in applicazioni che trattano dati personali o sensibili, l’assenza di provider EU-based significa una scelta forzata: inviare i dati verso server extra-UE, con tutte le incognite del caso in termini di GDPR. Anche quando il fornitore dichiara conformità, la residenza fisica dei dati ha un peso crescente nella valutazione del rischio, specialmente in settori regolati come finanza, sanità e pubblica amministrazione.

La latenza è un altro fattore. L’inference su server americani o asiatici introduce ritardi che possono rendere impraticabili applicazioni in tempo reale. Inoltre, la dipendenza da provider terzi espone a variazioni di prezzo, modifiche unilaterali dei termini di servizio e rischi di lock-in.

Self-hosting: ripensare l’infrastruttura

Di fronte a questo scenario, l’alternativa è il deployment on-premise o su cloud privato in datacenter europei. Eseguire GLM 5.2 o DeepSeek V4 Flash su hardware proprio — o su istanze dedicate in regioni EU — restituisce il controllo su dati e prestazioni. Non è una strada semplice: richiede investimenti in GPU, gestione della quantization e orchestrazione del serving. Ma è una direzione che molte organizzazioni stanno già percorrendo, spinte proprio dalla necessità di coniugare innovazione e sovranità.

AI-RADAR esplora regolarmente i trade-off di queste scelte: dai costi di TCO alle pipeline di fine-tuning, fino alla valutazione dei framework per l’inference. La scomparsa dei provider europei per modelli cinesi è un campanello d’allarme: la domanda di modelli open-weight cresce, ma l’offerta di servizi locali non tiene il passo. Chi vuole usarli senza rinunciare al controllo dovrà probabilmente sporcarsi le mani con l’hardware.

Uno spazio da colmare

Il vuoto segnalato su Openrouter è anche un’opportunità. I provider cloud europei potrebbero differenziarsi offrendo inference per modelli cinesi a pesi aperti, magari in collaborazione con i laboratori che li rilasciano. In attesa che questo accada, il self-hosting rimane la via maestra per chi non intende derogare su residenza dei dati e latenza.