DID: nuovi modelli di linguaggio a diffusione tramite processi Deletion-Insertion

DID: un nuovo approccio ai modelli di linguaggio a diffusione

I modelli di linguaggio a diffusione mascherata (MDLM) hanno dimostrato il loro valore, ma l'efficienza computazionale e la flessibilità nella generazione rimangono limitate dal paradigma del mascheramento. Un nuovo studio introduce i modelli DID (Deletion-Insertion Diffusion), che riformulano l'eliminazione e l'inserimento di token come processi di diffusione discreti, sostituendo i processi di mascheramento e smascheramento degli MDLM.

Vantaggi dei modelli DID

I modelli DID migliorano l'efficienza dell'addestramento e dell'inference eliminando due fonti principali di overhead computazionale presenti negli MDLM: i calcoli su token non informativi e i calcoli su token introdotti in contesti di lunghezza variabile. Inoltre, i DID offrono una maggiore flessibilità supportando nativamente sequenze di lunghezza variabile senza richiedere il padding a lunghezza fissa e integrando un meccanismo di auto-correzione intrinseco durante la generazione, grazie all'inserimento che regola dinamicamente le posizioni dei token.

Implementazione e risultati

Per addestrare i modelli DID, è stato progettato un approccio basato sullo score che assegna punteggi alle operazioni di inserimento di token e derivare obiettivi di addestramento appropriati. Gli obiettivi comportano problemi di conteggio delle sottosequenze, risolti tramite un algoritmo di programmazione dinamica parallelizzato. Gli esperimenti condotti in contesti a lunghezza fissa e variabile dimostrano il vantaggio dei modelli DID rispetto alle baseline degli MDLM e ai modelli di linguaggio esistenti basati sull'inserimento, in termini di performance di modellazione, qualità del campionamento e velocità di addestramento/inference, senza alcuna ottimizzazione degli iperparametri.

DID: nuovi modelli di linguaggio a diffusione tramite processi Deletion-Insertion

DID: un nuovo approccio ai modelli di linguaggio a diffusione

Vantaggi dei modelli DID

Implementazione e risultati

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

dUltra: un nuovo passo avanti per i modelli di diffusione

Qwen: la nuova frontiera per i modelli di linguaggio

Modelli "distillati": perché non ce ne sono di più?