ITPO: Un nuovo approccio per interazioni AI collaborative
La collaborazione uomo-AI in interazioni multi-turno รจ cruciale per servizi interattivi come il tutoring adattivo e la consulenza professionale. Ottimizzare queste interazioni tramite reinforcement learning รจ complesso a causa della scarsitร di ricompense intermedie verificabili e dell'elevata stocasticitร delle risposte degli utenti.
Per affrontare queste sfide, รจ stato introdotto Implicit Turn-wise Policy Optimization (ITPO). ITPO sfrutta un modello di ricompensa implicito per derivare ricompense a grana fine, a livello di turno, da segnali di outcome sparsi. A differenza delle ricompense volatili a livello di token, questi segnali a livello di turno mostrano una maggiore robustezza e possono utilizzare un meccanismo di normalizzazione per migliorare ulteriormente la stabilitร del training.
ITPO รจ stato valutato in tre compiti collaborativi multi-turno: tutoring matematico, scrittura di documenti e raccomandazione medica. I risultati empirici dimostrano che ITPO, combinato con PPO, GRPO o RLOO, raggiunge una convergenza migliorata rispetto alle baseline esistenti. L'analisi della traiettoria conferma che ITPO inferisce preferenze a livello di turno che sono semanticamente allineate con il giudizio umano. Il codice รจ disponibile pubblicamente su GitHub.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!