Un team di ricerca ha messo a punto una combinazione di campionatore e verificatore che, stando ai primi test, stravolge le prestazioni dei modelli linguistici più piccoli. La novità non richiede di modificare i pesi del LLM originale: si basa invece su un meccanismo di backtrack che interviene quando il modello sbaglia un token, facendolo tornare indietro e rigenerare la sequenza sotto la guida di un secondo modello, il verificatore, addestrato ad hoc.

Come funziona il campionatore con backtrack

La generazione di token da parte di un LLM segue un percorso lineare: ogni errore rimane nella sequenza e può compromettere l’intero output, soprattutto in compiti strutturati come il coding. Il nuovo campionatore inverte questa logica. Dopo aver prodotto un token, un verificatore delle stesse dimensioni del modello principale ne valuta la correttezza; se il token viene classificato come errato, il sistema cancella gli ultimi passi e riprova. Questo backtrack, che ricorda tecniche di ricerca come il beam search ma con una supervisione esterna, può ridurre drasticamente gli errori di sintassi e di logica nel codice generato.

Nei numeri riportati dalla ricerca, un LLM da 0,5 miliardi di parametri raggiunge prestazioni comparabili a quelle di modelli da 2, 3 o persino 4 miliardi. Su modelli più grandi, gli autori stimano che l’approccio potrebbe tagliare tra il 30 e il 50 per cento dei problemi di allucinazione, anche se si tratta di una proiezione ancora da verificare.

Il conto hardware: VRAM raddoppiata e calcolo 1,5-3x

Il rovescio della medaglia è rilevante per chiunque gestisca inference in locale. Il verificatore ha infatti dimensioni simili a quelle del LLM originale, il che significa che la VRAM necessaria raddoppia. Anche la banda di memoria e le richieste computazionali lievitano: gli autori parlano di un incremento tra 1,5 e 3 volte rispetto all’inference standard. A ciò si aggiunge un rallentamento diretto della decodifica compreso tra il 5 e il 30 per cento, perché il backtrack obbliga il sistema a rigenerare i token scartati.

Due aspetti, tuttavia, attenuano l’impatto. Il primo è che il verificatore si generalizza bene: un verificatore addestrato per un modello da 30 miliardi di parametri funziona anche con qualsiasi modello della stessa classe dimensionale o inferiore, purché abbia visto dati dello stesso dominio (ad esempio codice o matematica). Il secondo è il costo di addestramento: il verificatore si ottiene prendendo il modello originale e raffinandolo con un dataset specializzato equivalente a circa lo 0,01% dei token usati per il pre-training completo. Non servono quindi infrastrutture proibitive per crearlo.

Implicazioni per il deployment on-premise

Per le organizzazioni che valutano infrastrutture self-hosted per i LLM, la tecnica aggiunge un tassello importante. Storicamente, i modelli piccoli sono allettanti per l’on-premise grazie a consumi contenuti e minori requisiti hardware, ma spesso deludono nella qualità del codice generato. La possibilità di colmare quel divario senza passare a modelli più pesanti – e senza spostare i dati sul cloud – può cambiare i calcoli di TCO. Il raddoppio della VRAM e l’aumento del carico computazionale restano ostacoli concreti, ma l’integrazione in motori come llama.cpp (piuttosto che in vLLM o SGLang, che difficilmente lo adotteranno) suggerisce che la soluzione si rivolge proprio a chi opera su hardware consumer o server di fascia media in ambiente controllato.

AI-RADAR segue da tempo l’evoluzione degli stack on-premise e gli strumenti per valutare trade-off di questo tipo: chiunque gestisca deployment locali dovrà soppesare il costo di una GPU aggiuntiva (o di più VRAM) contro la qualità ottenuta, ma la direzione indicata dalla ricerca è promettente.

Prospettive: un futuro con meno allucinazioni?

Al di là dei costi immediati, il lavoro dimostra che un campionatore con backtrack ben progettato può sanare una fetta significativa degli errori tipici degli LLM. Gli autori ipotizzano che, con un paio di iterazioni di ricerca in più, si potrebbe arrivare a una versione ottimizzata (chiamata “VGB”) abbastanza veloce da essere pratica anche in produzione. Se i laboratori di IA riusciranno a co-addestrare un verificatore ancora più piccolo insieme al modello, l’overhead potrebbe ridursi drasticamente.

La notizia arriva in un momento in cui l’affidabilità del codice generato automaticamente è una priorità per molti utenti enterprise. Poter contare su modelli di dimensioni contenute, ma con un tasso di errore molto più basso, sposta l’asticella della fattibilità dei deployment air-gapped e rende più concreta l’idea di un’IA on-premise realmente sovrana e controllabile.