ITPO: Un nuovo approccio per interazioni AI collaborative
La collaborazione uomo-AI in interazioni multi-turno è cruciale per servizi interattivi come il tutoring adattivo e la consulenza professionale. Ottimizzare queste interazioni tramite reinforcement learning è complesso a causa della scarsità di ricompense intermedie verificabili e dell'elevata stocasticità delle risposte degli utenti.
Per affrontare queste sfide, è stato introdotto Implicit Turn-wise Policy Optimization (ITPO). ITPO sfrutta un modello di ricompensa implicito per derivare ricompense a grana fine, a livello di turno, da segnali di outcome sparsi. A differenza delle ricompense volatili a livello di token, questi segnali a livello di turno mostrano una maggiore robustezza e possono utilizzare un meccanismo di normalizzazione per migliorare ulteriormente la stabilità del training.
ITPO è stato valutato in tre compiti collaborativi multi-turno: tutoring matematico, scrittura di documenti e raccomandazione medica. I risultati empirici dimostrano che ITPO, combinato con PPO, GRPO o RLOO, raggiunge una convergenza migliorata rispetto alle baseline esistenti. L'analisi della traiettoria conferma che ITPO inferisce preferenze a livello di turno che sono semanticamente allineate con il giudizio umano. Il codice è disponibile pubblicamente su GitHub.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!