Un test condotto su quattro NVIDIA RTX 3090 con il modello Nemotron-3-Super-120B-A12B in formato GGUF ha mostrato risultati che cambiano le carte in tavola per chi spinge l’inference on-premise verso contesti lunghissimi. L’architettura ibrida Mamba2 + attenzione periodica + Mixture of Experts, con 12 miliardi di parametri attivi, ha recuperato senza errori singole informazioni sepolte in una finestra di oltre 504.000 token. E lo ha fatto restando interamente residente in VRAM su hardware consumer, con circa 20 GB per scheda.
Il test: quattro RTX 3090 e un modello da 71 GB
La versione usata è la i1-Q4_K_S preparata da mradermacher, che comprime il check-point BF16 originale in un GGUF da circa 71 GB. L’inference è stata eseguita con il backend llama.cpp, mantenendo tutti i livelli del modello sulle GPU e utilizzando una cache KV in formato q8_0. La configurazione minima? Quattro RTX 3090 da 24 GB ciascuna – nessun collegamento NVLink, nessun server specializzato.
I numeri di decode misurati parlano chiaro: 72 token al secondo su contesti brevi, 67 t/s a 30K token, fino a 23 t/s a 504K token. Il prefill, cioè l’elaborazione iniziale del contesto, viaggia a oltre 2.000 t/s su 30K token e scende a 885 t/s sul contesto pieno. La metrica decisiva, però, è il needle-in-a-haystack: una singola informazione (il “codice”) piazzata al 10%, 50% e 90% della finestra è stata recuperata correttamente in tutti i test.
La chiave: strati Mamba e cache KV ridotta
Un modello full-attention accumula una cache chiave-valore (KV) che cresce linearmente con il contesto, colpendo sia la VRAM occupata sia la velocità di decode. Nemotron-3-Super adotta invece strati Mamba, che mantengono uno stato ricorrente a dimensione fissa. Solo i pochi strati di attenzione periodica possiedono una cache KV, e con appena 2 teste KV l’impatto è minimo. Il risultato: la decode a 500K token (23 t/s) è paragonabile a quella che un modello full-attention paragonabile (MiniMax-M2.7-REAP, ~74 GB, 10B parametri attivi) raggiungeva a soli 30K token sullo stesso hardware (24,5 t/s).
Cosa significa per i deployment on-premise
Chi valuta stack locali per la sovranità dei dati o per il controllo del TCO sa bene che i contesti molto lunghi sono spesso un lusso proibitivo. I modelli full-attention richiedono GPU con VRAM generosa e degradano la latenza man mano che la conversazione si allunga. L’architettura Mamba+MoE dimostrata qui spezza questo compromesso: il costo del contesto diventa quasi piatto. Su quattro schede consumer è possibile gestire fino a mezzo milione di token senza server aziendali o cloud. Questo apre scenari concreti per analisi di documenti estesi, revisione di contratti complessi e applicazioni legali o di compliance che devono rimanere rigorosamente on-premise.
Attenzione al recency bias
Un dettaglio emerso dal test è il classico bias di recenza: istruzioni permanenti nascoste in profondità nel contesto possono essere scavalcate da una contraddizione inserita in coda. La lezione operativa è chiara: nei casi d’uso reali, le regole rigide vanno collocate nel prompt di sistema o verso la fine del contesto, non disperse in un “spine” intermedio. Resta un punto di attenzione per chi costruisce flussi di lavoro strutturati su contesti molto lunghi.
Prospettiva
La combinazione di modelli ibridi Mamba e quantization aggressiva sta ridisegnando i confini dell’inference locale. Non servono datacenter: bastano quattro GPU consumer e un formato GGUF ben ottimizzato per ottenere precisione assoluta su contesti che fino a ieri erano appannaggio di infrastrutture cloud. Per chi segue il deployment dell’LLM on-premise, la strada indicata da Nemotron-3-Super è un segnale forte: l’efficienza architetturale conta più dei teraflop grezzi quando l’obiettivo è unire controllo, costi contenuti e contesti lunghissimi.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!