ATPO: Un nuovo approccio per dialoghi medici con LLM

La ricerca di informazioni efficaci nei dialoghi medici multi-turno รจ fondamentale per una diagnosi accurata, specialmente in presenza di informazioni incomplete. Allineare i Large Language Models (LLM) per questi scenari interattivi รจ complesso a causa dell'incertezza intrinseca nelle interazioni utente-agente, che viene formulata come un processo decisionale di Markov gerarchico (H-MDP).

Superare i limiti dei metodi tradizionali

Mentre i metodi di Reinforcement Learning (RL) convenzionali faticano con l'assegnazione del credito a lungo termine e la stima instabile dei valori, viene proposto un nuovo algoritmo: Adaptive Tree Policy Optimization (ATPO). ATPO alloca in modo adattivo il budget di rollout agli stati con elevata incertezza, quantificata da una metrica composita di errore di Bellman e varianza del valore di azione. Questa strategia consente una stima piรน accurata dei valori, promuovendo al contempo un'esplorazione piรน efficiente e diversificata.

Ottimizzazioni per l'efficienza computazionale

Per mitigare l'elevato costo computazionale dell'RL basato su albero, sono state introdotte due ottimizzazioni chiave: un meccanismo di pruning guidato dall'incertezza per ridurre al minimo il numero di rollout e un'architettura di ricerca asincrona che sfrutta il riutilizzo della cache KV per massimizzare la velocitร  effettiva dell'inference. Esperimenti su tre benchmark pubblici di dialoghi medici dimostrano che l'algoritmo supera significativamente diverse baseline, con il modello Qwen3-8B che supera il piรน grande GPT-4o in accuratezza.