ITPO: Un nuovo approccio per interazioni AI collaborative

La collaborazione uomo-AI in interazioni multi-turno è cruciale per servizi interattivi come il tutoring adattivo e la consulenza professionale. Ottimizzare queste interazioni tramite reinforcement learning è complesso a causa della scarsità di ricompense intermedie verificabili e dell'elevata stocasticità delle risposte degli utenti.

Per affrontare queste sfide, è stato introdotto Implicit Turn-wise Policy Optimization (ITPO). ITPO sfrutta un modello di ricompensa implicito per derivare ricompense a grana fine, a livello di turno, da segnali di outcome sparsi. A differenza delle ricompense volatili a livello di token, questi segnali a livello di turno mostrano una maggiore robustezza e possono utilizzare un meccanismo di normalizzazione per migliorare ulteriormente la stabilità del training.

ITPO è stato valutato in tre compiti collaborativi multi-turno: tutoring matematico, scrittura di documenti e raccomandazione medica. I risultati empirici dimostrano che ITPO, combinato con PPO, GRPO o RLOO, raggiunge una convergenza migliorata rispetto alle baseline esistenti. L'analisi della traiettoria conferma che ITPO inferisce preferenze a livello di turno che sono semanticamente allineate con il giudizio umano. Il codice è disponibile pubblicamente su GitHub.