Introduzione
I modelli di diffusione sono stati introdotti come una potenziale soluzione per superare gli autoregolari nel campo dell'intelligenza artificiale. Tuttavia, la maggior parte dei modelli di diffusione aperti fonte (open-source) decodono solo pochi token in ogni passaggio di avanti, limitando la loro velocità di sampling a quella degli AR + strategie speculative di decoding.
Un altro problema è che i distillatori basati su MDLMs finetunano i modelli sulla traiettoria generata da un modello base, il che può portare a performance ridotte durante il fine-tuning e limitare la loro capacità di eseguire bene le qualità dei campioni del modello base.
I ricercatori hanno quindi sviluppato dUltra, un nuovo framework di apprendimento basato su Group Relative Policy Optimization (GRPO) che impara strategie di smascheramento per ottimizzare la decodifica in modo parallelo. Il framework introduce una testa di pianificatore di smascheramento che prevede probabilità di smascheramento per token sotto distribuzioni Bernoulli indipendenti.
I ricercatori ottimizzano contemporaneamente il modello di diffusione base e la pianificazione dell'ordine di smascheramento utilizzando segnali di ricompensa che combinano i segnali di ricompensa verificabili, i segnali di distillazione e il numero di passaggi di smascheramento.
I risultati mostrano che dUltra migliora l'equilibrio tra precisione e efficienza rispetto a basi di stato dell'arte heuristiche e di distillazione, avvicinandosi al concetto di "supremazia della diffusione" rispetto ai modelli autoregolari.
Contesto tecnico
I modelli di diffusione sono stati introdotti come una potenziale soluzione per superare gli autoregolari nel campo dell'intelligenza artificiale. Tuttavia, la maggior parte dei modelli di diffusione aperti fonte (open-source) decodono solo pochi token in ogni passaggio di avanti, limitando la loro velocità di sampling a quella degli AR + strategie speculative di decoding.
Un altro problema è che i distillatori basati su MDLMs finetunano i modelli sulla traiettoria generata da un modello base, il che può portare a performance ridotte durante il fine-tuning e limitare la loro capacità di eseguire bene le qualità dei campioni del modello base.
Conclusioni
La creazione di dUltra rappresenta un passo importante verso la realizzazione della "supremazia della diffusione" rispetto ai modelli autoregolari. Il nuovo framework di apprendimento utilizza l'apprendimento guidato per ottimizzare il processo di decodifica in modo parallelo, migliorando l'efficienza e la precisione dei modelli di diffusione.
Implicazioni
La realizzazione di dUltra ha implicazioni significative per l'intelligenza artificiale e le applicazioni del linguaggio naturale. Con la capacità di ottimizzare il processo di decodifica in modo parallelo, i modelli di diffusione possono raggiungere prestazioni più elevate rispetto ai modelli autoregolari.
Futuro delle ricerche
La creazione di dUltra rappresenta solo l'inizio della ricerca su questo campo. I ricercatori continueranno a migliorare e ottimizzare il framework di apprendimento per raggiungere prestazioni ancora più elevate.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!