Giugno 2026: NVIDIA, AMD e Intel guidano la spinta alla quantization per LLM on-premise

Giugno è storicamente un mese di assestamento, ma nel 2026 la comunità open model si prende una pausa dalla valanga di aprile per concentrarsi sulla sostanza. Meno modelli nuovi, certo, ma un salto di qualità deciso: i tre grandi del silicio – NVIDIA, AMD e Intel – scendono in campo con tecniche di quantization pensate per portare LLM di ultima generazione su hardware che non sia un data center. E non è un caso.

Il mese in cui la quantization cambia marcia

A farla da padrona sono tre iniziative parallele che puntano a ridurre il consumo di VRAM senza massacrare la qualità dell'inference. NVIDIA ha rilasciato il formato NVFP4 per una serie di modelli pesanti: dal mastodontico Nemotron-3-Ultra-550B fino a Qwen3.6-27B, passando per DiffusionGemma-26B e MiniMax-M3. Si tratta di un passo deciso verso il deployment locale anche per architetture a 550 miliardi di parametri, finora confinate nel cloud.

AMD non è rimasta a guardare e ha proposto MXFP4, applicandolo a Kimi-K2.7-Code, GLM-5.2, Qwen3.5-397B e MiniMax-M3. È un formato emergente che promette maggiore flessibilità nel bilanciamento tra precisione numerica e occupazione di memoria, particolarmente interessante per chi usa GPU consumer o schede professionali con budget di VRAM limitato. Intel, dal canto suo, ha spinto AutoRound, un metodo di quantization post-training a bassa perdita, ottimizzato per i suoi acceleratori ma applicabile anche su hardware generico. I modelli coinvolti includono DiffusionGemma-26B, DeepSeek-V4-Pro e le versioni Gemma-4 da 12 e 31 miliardi di parametri.

Queste non sono solo sigle: rappresentano la risposta concreta a una domanda che cresce in tutte le aziende che valutano deployment on-premise – come si fa a eseguire modelli da centinaia di miliardi di token senza spendere cifre oscene in hardware? La risposta, sempre più spesso, è la quantization aggressiva.

Fine-tune e gemme sparse

Parallelamente, la community ha prodotto alcune varianti specializzate che meritano attenzione. Nex-N2 e Ornith-1.0 aprono la strada ai cosiddetti “agents-A1”, probabilmente agenti conversazionali con istruzioni raffinate. Holo3.1 e Tmax-27b sembrano puntare all’ottimizzazione per task specifici, mentre MusaCoder-27B e VibeThinker-3B segnalano un interesse crescente per la generazione di codice e il ragionamento su scala ridotta – due nicchie chiave per implementazioni on-premise dove la latenza deve restare bassa.

C’è poi un’altra novità significativa: Nemotron-Labs-TwoTower-30B-A3B-Base, un modello diffusion-based firmato NVIDIA. L’architettura a due torri (Two-Tower) è tipica dei sistemi di retrieval e ranking, e vederla declinata in modalità diffusion suggerisce una convergenza tra modelli generativi e modelli di recupero informazioni, con potenziali benefici in scenari enterprise sensibili alla privacy.

DeepSeek e l’efficienza come filosofia

Da DeepSeek arrivano tre componenti raggruppate sotto il nome DeepSpec: Eagle3, DFlash e DSpark. Non si tratta di un modello ma di una pipeline, un insieme di strumenti che mirano a snellire l’intero ciclo di vita del modello, dalla compressione all’inference distribuita. Eagle3 è probabilmente un nuovo livello di attention ottimizzata, DFlash lavora sulla riduzione della latenza di accesso alla memoria, mentre DSpark potrebbe gestire lo scheduling dinamico delle risorse. Per chi gestisce cluster on-premise, una pipeline del genere significa meno tempo speso in tuning manuale e più controllo sulla latenza end-to-end.

Perché tutto questo conta per l’on-premise

È l’elefante nella stanza che molti evitano: l’adozione di LLM in azienda si scontra con il costo reale dell’hardware. Le GPU con 80 GB di VRAM non sono esattamente economiche, e molti progetti rimangono imprigionati nel cloud per mancanza di alternative. Le mosse di NVIDIA, AMD e Intel dimostrano che la partita si sta giocando sul terreno della quantization fine, non solo sui modelli più grandi. NVFP4 e MXFP4 consentono di far girare modelli come Nemotron-3-Ultra su nodi multi-GPU consumer, riducendo il TCO e mantenendo la sovranità dei dati. AutoRound, con la sua filosofia low-loss, è particolarmente adatto a contesti in cui il fine-tuning è già stato fatto e si vuole solo distribuire il modello in produzione.

Non è solo una questione di performance: è anche compliance. L’AutoRound di Intel è già ottimizzato per ambienti che richiedono auditability, un aspetto cruciale per settori regolati. Per le aziende che ancora valutano se sia meglio cloud o on-premise, strumenti come questi spostano l’ago della bilancia verso il controllo diretto dell’infrastruttura – con tutti i trade-off che AI-RADAR analizza in dettaglio per chi vuole approfondire le decisioni di deployment.

La cornice più ampia

Giugno 2026 sarà ricordato come il mese in cui la quantization è diventata mainstream anche per i modelli aperti più pesanti. Non abbiamo nuovi modelli rivoluzionari, ma una maturazione dell’ecosistema che rende i modelli esistenti molto più pratici fuori dal laboratorio. La competizione a tre tra i fornitori di silicio promette di accelerare ulteriormente l’innovazione, con il risultato che eseguire un LLM di fascia alta in azienda potrebbe presto non richiedere più l’acquisto di un piccolo cluster H100. Nel frattempo, le aziende con un occhio alla sovranità farebbero bene a testare questi formati sul proprio hardware – idealmente prima che i propri competitor arrivino alla stessa conclusione.