Controllo adattivo nei sistemi RAG
I sistemi RAG (Retrieval-Augmented Generation) integrano il recupero di informazioni esterne con la generazione di testo, ma richiedono un controllo accurato per soddisfare obiettivi di servizio (SLO) specifici. Un recente studio si concentra su questo aspetto, modellando il controllo per-query come una scelta discreta tra diverse azioni: profondità di recupero, modalità di generazione (guidata vs. automatica) o rifiuto della query.
Obiettivi e risultati
La ricerca utilizza un dataset offline costruito a partire da SQuAD 2.0, valutando l'accuratezza, il costo in token, gli indicatori di allucinazione/rifiuto e una ricompensa ponderata in base agli SLO. Due semplici obiettivi di apprendimento delle policy sono stati presi in esame: la classificazione supervisionata della migliore azione per stato e una variante ponderata in base alla ricompensa. I risultati mostrano che una baseline fissa e robusta (basso k, prompting guidato) si comporta in modo competitivo. Le policy apprese offrono principalmente risparmi sui costi in presenza di uno SLO focalizzato sulla qualità, ma possono mostrare un collasso del rifiuto in presenza di uno SLO economico, quando il rifiuto è fortemente premiato.
Implicazioni
Lo studio fornisce un'analisi riproducibile del controllo basato sugli SLO per le pipeline RAG, con un'enfasi sulle modalità di errore e sulle convenzioni di reporting. L'obiettivo non è proporre un nuovo sistema di recupero o un modello linguistico, ma piuttosto fornire una guida pratica per l'implementazione di sistemi RAG più efficienti e affidabili.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!