CTRL-RAG: Un nuovo approccio al Reinforcement Learning per RAG
La crescente adozione dei modelli RAG (Retrieval-Augmented Generation) richiede tecniche di training avanzate per garantire ragionamenti sensibili al contesto e consegne fedeli. Un nuovo studio introduce CTRL-RAG, un framework di reinforcement learning (RL) che mira a superare i limiti degli approcci esistenti.
Superare i limiti dei sistemi di reward esterni
I metodi RL tradizionali per RAG spesso si basano su reward esterni che faticano a valutare accuratamente la fedeltร dei documenti e possono generare valutazioni errate in contesti open-domain. CTRL-RAG introduce un sistema di reward ibrido "interno-esterno" basato su un Contrastive Likelihood Reward (CLR). Questo sistema ottimizza il divario di log-verosimiglianza tra le risposte condizionate da prompt con e senza evidenza di supporto.
Vantaggi del Contrastive Likelihood Reward (CLR)
Il CLR incoraggia il modello a estrarre evidenze rilevanti e aumenta la sua confidenza quando รจ basato su un contesto specifico. Questo meccanismo mira a ridurre le allucinazioni e migliorare la qualitร complessiva delle consegne. I risultati sperimentali dimostrano che CTRL-RAG, utilizzato da solo o in combinazione con reward esterni, offre prestazioni elevate in benchmark single-hop, multi-hop e vertical-domain.
Prossimi passi
Il codice di training e i modelli saranno rilasciati a breve.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!