ATPO: Ottimizzazione adattiva per dialoghi medici multi-turno

ATPO: Un nuovo approccio per dialoghi medici con LLM

La ricerca di informazioni efficaci nei dialoghi medici multi-turno è fondamentale per una diagnosi accurata, specialmente in presenza di informazioni incomplete. Allineare i Large Language Models (LLM) per questi scenari interattivi è complesso a causa dell'incertezza intrinseca nelle interazioni utente-agente, che viene formulata come un processo decisionale di Markov gerarchico (H-MDP).

Superare i limiti dei metodi tradizionali

Mentre i metodi di Reinforcement Learning (RL) convenzionali faticano con l'assegnazione del credito a lungo termine e la stima instabile dei valori, viene proposto un nuovo algoritmo: Adaptive Tree Policy Optimization (ATPO). ATPO alloca in modo adattivo il budget di rollout agli stati con elevata incertezza, quantificata da una metrica composita di errore di Bellman e varianza del valore di azione. Questa strategia consente una stima più accurata dei valori, promuovendo al contempo un'esplorazione più efficiente e diversificata.

Ottimizzazioni per l'efficienza computazionale

Per mitigare l'elevato costo computazionale dell'RL basato su albero, sono state introdotte due ottimizzazioni chiave: un meccanismo di pruning guidato dall'incertezza per ridurre al minimo il numero di rollout e un'architettura di ricerca asincrona che sfrutta il riutilizzo della cache KV per massimizzare la velocità effettiva dell'inference. Esperimenti su tre benchmark pubblici di dialoghi medici dimostrano che l'algoritmo supera significativamente diverse baseline, con il modello Qwen3-8B che supera il più grande GPT-4o in accuratezza.

ATPO: Ottimizzazione adattiva per dialoghi medici multi-turno

ATPO: Un nuovo approccio per dialoghi medici con LLM

Superare i limiti dei metodi tradizionali

Ottimizzazioni per l'efficienza computazionale

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

HCAPO: assegnazione del credito a posteriori per agenti LLM long-horizon

Found-RL: Reinforcement Learning potenziato per guida autonoma

CTRL-RAG: Reinforcement Learning per modelli RAG context-aware