NVIDIA sfida i canoni con un LLM diffusivo a due torri che genera i token in parallelo

L’idea che un Large Language Model debba sfornare un token dopo l’altro sembrava una condanna apparentemente ineludibile. NVIDIA la mette in discussione con Nemotron-TwoTower-30B-A3B-Base-BF16, un modello linguistico che sceglie la strada della diffusione e guadagna un fattore di accelerazione superiore a 2× senza cedere quasi nulla sul terreno della qualità.

L’addio alla catena sequenziale

Al cuore dell’architettura battono due torri distinte. Una, autoregressiva e congelata, produce il contesto iniziale; l’altra, un denoiser diffusivo, interviene con una strategia di mascheramento iterativo per completare simultaneamente intere porzioni di testo. Il risultato è una pipeline di generazione che non scivola più token per token, ma riempie blocchi in parallelo — il cosiddetto setup mask-diffusion predefinito.

Il punto di partenza è il backbone Nemotron 3 Nano 30B-A3B, ma la vera novità sta nel modo in cui NVIDIA ha vestito quel nucleo. Non si tratta di un semplice esperimento accademico: l’azienda ha misurato il comportamento del modello su benchmark aggregati e dichiara di aver conservato il 98,7% della qualità del corrispettivo autoregressivo, portando al contempo il throughput reale di generazione a 2,42 volte.

Cosa accade quando il parallelismo entra nel vocabolario

La scelta di adottare un approccio diffusivo per un compito tipicamente sequenziale incide su due fronti cari a chi gestisce carichi di inference: latenza e saturazione della GPU. I modelli autoregressivi classici impegnano le unità di calcolo in maniera intermittente, costringendo a una continua alternanza tra fetch di memoria e operazioni vettoriali. Un denoiser che elabora più token alla volta può invece sfruttare meglio la banda della VRAM e aumentare l’utilizzo dei core, riducendo il tempo totale di generazione a parità di hardware.

Il modello è rilasciato in precisione BF16, una scelta che bilancia fedeltà numerica e consumi. Non sono state diffuse indicazioni su requisiti minimi di VRAM o su eventuali varianti quantizzate, ma la mossa suggerisce un interesse concreto per scenari ad alta intensità dove ogni millisecondo conta.

Il trade-off qualità-velocità e il segnale per i deployment locali

La dichiarazione di NVIDIA — mantenere il 98,7% della qualità aggregata accelerando di 2,42× — sposta l’asticella del dibattito che per anni ha contrapposto modelli pesanti e accurati a soluzioni più leggere ma approssimative. Questo tipo di compromesso interessa in modo particolare le organizzazioni che valutano deployment on-premise, dove il costo totale di possesso (TCO) è dominato dall’hardware fisso e ogni watt consumato deve produrre più token.

Parallelizzare la decodifica senza stravolgere l’accuratezza significa poter soddisfare picchi di richieste con meno acceleratori, o alternativamente offrire latenze più basse senza espandere il parco macchine. Siamo ancora lontani da numeri di produzione su larga scala, ma la direzione è quella giusta per rendere l’inference self-hosted più sostenibile, specie in contesti regolati dove la sovranità dei dati impedisce di scaricare il carico su servizi cloud.

Per chi analizza questi scenari, AI-RADAR segue da vicino l’evolversi dei framework di ottimizzazione e dei modelli che provano a coniugare qualità e velocità. Non esistono raccomandazioni univoche, ma è sempre più chiaro che le architetture non sequenziali rappresentano un’area da osservare con attenzione.

Un prototipo che ridefinisce le aspettative

Nemotron-TwoTower non è un modello general-purpose che sostituirà dall’oggi al domani le pipeline esistenti. È piuttosto un dimostratore di quanto margine esista ancora nell’incrocio tra modelli linguistici e paradigmi generativi meno esplorati. La diffusione applicata al testo obbliga a ripensare pipeline di serving e criteri di benchmark, ma offre in cambio una leva nuova per chi progetta infrastrutture AI sotto vincoli stringenti di budget e spazio fisico.

La partita resterà aperta finché non arriveranno metriche indipendenti e test su hardware diversificato. Intanto, il messaggio è nitido: la generazione sequenziale non è più l’unica via, e il throughput può crescere senza lasciare sul tavolo l’accuratezza.