Gemma 4 uncensored: MTP accelera l’inference locale fino al 53%

Il rilascio e la corsa all’uncensored

HauhauCS ha pubblicato su Hugging Face due modelli Gemma 4 “uncensored” con un asso nella manica: la predizione multi-token (MTP), un meccanismo di decoding speculativo che accelera l’inference in locale fino al 35% per la variante MoE da 26 miliardi di parametri attivi e al 53% per la versione densa da 31 miliardi. Entrambi sono quantizzati a 4-bit con metodo QAT (Quantization-Aware Training), scelta che secondo l’autore rappresenta il punto ottimale di qualità, e disponibili nell’unico formato Q4_K_M, perché su un modello addestrato per la quantization spinta, rappresentazioni a precisione superiore diventano solo più pesanti senza miglioramenti reali. I modelli, pensati per girare su hardware common come una scheda video con 20-24 GB di VRAM, portano il contesto esteso a 262mila token e comprendono un encoder visivo (mmproj). Il tutto è stato testato con llama.cpp, diventando un pacchetto pronto per l’uso in ambienti self-hosted.

MTP: più velocità senza compromessi

Il punto tecnico di maggiore interesse è l’introduzione di una draft head MTP, un componente che genera più token successivi in parallelo per poi verificare ciascuno con il modello completo. In questo modo, il tempo complessivo di inference si riduce drasticamente, ma l’output rimane identico a quello del modello originale, perché ogni token speculativo viene comunque convalidato. Nel caso della Gemma4-31B-QAT, il boost del 53% significa che un flusso di lavoro creativo o un task di scrittura può procedere quasi il doppio più velocemente, senza alcun degrado nella coerenza o nel lungo contesto. L’approccio si appoggia a una coppia di flag specifici per llama.cpp (--spec-type draft-mtp e il draft model .gguf fornito a corredo), e secondo i test dell’autore non introduce loop né instabilità, mantenendo la stabilità di campionamento anche su run ripetute.

Quantization QAT e architetture: perché il 4-bit è il punto di arrivo

La scelta del formato Q4_K_M come unica distribuzione non è casuale: Gemma 4 è stata addestrata con una procedura di “quantization-aware training” orientata proprio al funzionamento affidabile a circa 4 bit. Utilizzare una quantization più fine, come Q5 o Q6, non porterebbe un guadagno qualitativo tangibile, mentre aumenterebbe il footprint in VRAM. La variante da 26B-A4B adotta un’architettura Mixture-of-Experts con 128 esperti e 8 attivi per token, riducendo di fatto i parametri in gioco a circa 4 miliardi per token: di conseguenza occupa solo 16,8 GB di VRAM e vola anche su hardware modesto. La versione densa da 31B richiede 18,7 GB, ma offre capacità di ragionamento più robuste, sempre nel formato QAT. Entrambi i modelli sono “Balanced”, cioè includono una leggera premessa di ragionamento solo per le richieste più estreme, senza alterazioni della personalità o del comportamento creativo, rendendoli ideali per scrittura creativa, role-playing e assistenza emotiva.

Controllo locale e sovranità dei dati: l’approccio self-hosted

La disponibilità immediata per llama.cpp e l’assenza di dipendenze da API cloud rendono questi modelli particolarmente interessanti per chi valuta un deployment on-premise. Con un modello quantizzato QAT e un draft head MTP, l’inference raggiunge velocità paragonabili a quelle di soluzioni più pesanti, ma su hardware di proprietà e senza mai esporre i dati all’esterno. In settori come legal, healthcare o manifatturiero, dove la sovranità dei dati e la conformità normativa (GDPR o simili) sono vincoli imprescindibili, avere un LLM “uncensored” e performante in locale non è più un compromesso, ma un’opzione concreta. La nota dell’autore secondo cui Qwen3.6 rimane superiore per il coding agentico non sminuisce il valore di Gemma 4: al contrario, indica una specializzazione chiara che può guidare la scelta senza ambiguità. Per chi invece cerca flessibilità nella generazione di testi e un controllo totale sul flusso di output, il pacchetto rilasciato da HauhauCS rappresenta un ulteriore passo verso infrastrutture AI realmente self-hosted, dove il costo totale (TCO) è governato dall’hardware acquistato una tantum anziché da fatture mensili basate su token.

Il punto sull’ecosistema LLM locale

I quasi 20 milioni di download cumulativi dei modelli di HauhauCS e l’integrazione con Unsloth per le draft MTP confermano una tendenza: la comunità open-source sta spostando l’asticella delle prestazioni on-premise ben oltre la semplice fattibilità. Con finestre di contesto da 262K token, supporto visivo e meccanismi di accelerazione senza sacrifici qualitativi, l’hardware consumer è oggi in grado di gestire carichi di lavoro che fino a ieri avrebbero richiesto server dedicati. Questo non solo democratizza l’accesso agli LLM, ma riscrive anche le logiche di acquisto: avere il modello giusto per il proprio dominio, uncensored e ottimizzato per la propria macchina, diventa una via percorribile, ridisegnando la linea di demarcazione tra ciò che deve viaggiare in cloud e ciò che può restare in casa.