LLM da 100-120B: una nicchia in declino o in attesa di rilanci?

Il silenzio attorno ai Large Language Models da 100-120B

Il panorama dei Large Language Models (LLM) è in costante evoluzione, con nuove architetture e modelli che emergono a ritmo serrato. Tuttavia, un'analisi recente del mercato rivela una tendenza inaspettata: una notevole assenza di nuovi rilasci nella fascia di parametri compresa tra i 100 e i 120 miliardi. Questa categoria, che include modelli come GPT-OSS-120B, GLM-4.5-Air, Nemotron-3-Super, Qwen3.5-122B e Mistral-Small-4-119B, sembra essere entrata in una fase di stallo.

I modelli citati, infatti, risalgono ad almeno tre mesi fa, con il capostipite GPT-OSS-120B che ha ormai dieci mesi. Questo "silenzio" contrasta con l'effervescenza osservata nelle altre fasce di dimensione, sollevando interrogativi cruciali per CTO, DevOps lead e architetti infrastrutturali che pianificano strategie di deployment per carichi di lavoro AI.

Un mercato polarizzato: piccoli o giganti

L'attuale ondata di rilasci di LLM si sta polarizzando verso due estremi ben definiti. Da un lato, assistiamo all'emergere di modelli più compatti, nella fascia dei 25-35 miliardi di parametri, come Gemma4 e Qwen3.6. Questi modelli sono spesso ottimizzati per l'efficienza, mirando a scenari di utilizzo che richiedono minori risorse computazionali e possono essere eseguiti su hardware meno esigente, talvolta anche su dispositivi edge o server con GPU di fascia media.

Dall'altro lato, il mercato vede un'accelerazione nello sviluppo di modelli ultra-grandi, con oltre 200 miliardi di parametri. Esempi recenti includono Step 3.5/3.7 Flash, DeepSeek-V4-Flash, MiniMax-M3 e Nemotron-3-Ultra. Questi giganti promettono capacità avanzate e prestazioni superiori, ma richiedono infrastrutture di calcolo estremamente potenti, spesso basate su cluster di GPU di ultima generazione con elevata VRAM e interconnessioni ad alta velocità. La fascia intermedia da 100-120B, che in alcuni casi adotta architetture Mixture of Experts (MoE) per ottimizzare l'Inference, sembra essere rimasta in una sorta di limbo.

Implicazioni per i deployment on-premise e la sovranità dei dati

La mancanza di nuovi LLM nella fascia 100-120B ha ripercussioni significative per le organizzazioni che valutano deployment on-premise o soluzioni self-hosted. Questa categoria di modelli, pur essendo impegnativa in termini di risorse, poteva rappresentare un compromesso interessante tra le capacità dei modelli più grandi e la gestibilità infrastrutturale rispetto ai giganti da 200B+. Per eseguire un modello da 100-120B, sono tipicamente necessarie GPU enterprise con VRAM elevata, come le NVIDIA A100 da 80GB o le H100, spesso in configurazioni multi-GPU.

Optare per modelli più piccoli (25-35B) riduce i requisiti hardware e il TCO, ma potrebbe limitare le capacità. Al contrario, i modelli da 200B+ impongono investimenti infrastrutturali massicci, potenzialmente spingendo le aziende verso soluzioni cloud se non dispongono di un budget CapEx adeguato. Per chi valuta deployment on-premise, AI-RADAR offre framework analitici su /llm-onpremise per comprendere i trade-off tra performance, costi e requisiti infrastrutturali, garantendo al contempo la sovranità dei dati e la compliance in ambienti air-gapped.

Prospettive future e la ricerca del giusto equilibrio

La domanda che emerge è se la famiglia di LLM da 100-120B, in particolare quelli basati su architetture MoE, sia destinata a "morire" come accaduto in passato per la fascia 70-80B, o se si tratti di una pausa strategica in attesa di nuove ottimizzazioni o rilasci previsti per la seconda metà del 2026. È possibile che gli sviluppatori stiano concentrando gli sforzi su modelli più piccoli per massimizzare l'accessibilità e l'efficienza, o su modelli molto più grandi per spingere i limiti delle capacità, lasciando la fascia intermedia meno prioritaria.

Per le aziende, monitorare queste tendenze è fondamentale. La scelta della dimensione del modello influenza direttamente la selezione dell'hardware, la pianificazione del budget e la strategia complessiva di adozione dell'AI. Trovare il giusto equilibrio tra capacità del modello, requisiti hardware e TCO rimane una sfida centrale, specialmente per chi privilegia il controllo e la sicurezza offerti dai deployment self-hosted.