DID: un nuovo approccio ai modelli di linguaggio a diffusione
I modelli di linguaggio a diffusione mascherata (MDLM) hanno dimostrato il loro valore, ma l'efficienza computazionale e la flessibilità nella generazione rimangono limitate dal paradigma del mascheramento. Un nuovo studio introduce i modelli DID (Deletion-Insertion Diffusion), che riformulano l'eliminazione e l'inserimento di token come processi di diffusione discreti, sostituendo i processi di mascheramento e smascheramento degli MDLM.
Vantaggi dei modelli DID
I modelli DID migliorano l'efficienza dell'addestramento e dell'inference eliminando due fonti principali di overhead computazionale presenti negli MDLM: i calcoli su token non informativi e i calcoli su token introdotti in contesti di lunghezza variabile. Inoltre, i DID offrono una maggiore flessibilità supportando nativamente sequenze di lunghezza variabile senza richiedere il padding a lunghezza fissa e integrando un meccanismo di auto-correzione intrinseco durante la generazione, grazie all'inserimento che regola dinamicamente le posizioni dei token.
Implementazione e risultati
Per addestrare i modelli DID, è stato progettato un approccio basato sullo score che assegna punteggi alle operazioni di inserimento di token e derivare obiettivi di addestramento appropriati. Gli obiettivi comportano problemi di conteggio delle sottosequenze, risolti tramite un algoritmo di programmazione dinamica parallelizzato. Gli esperimenti condotti in contesti a lunghezza fissa e variabile dimostrano il vantaggio dei modelli DID rispetto alle baseline degli MDLM e ai modelli di linguaggio esistenti basati sull'inserimento, in termini di performance di modellazione, qualità del campionamento e velocità di addestramento/inference, senza alcuna ottimizzazione degli iperparametri.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!