HCAPO: assegnazione del credito a posteriori per agenti LLM long-horizon

HCAPO: Migliorare l'efficienza degli agenti LLM

La gestione dell'assegnazione del credito rappresenta una sfida significativa per gli agenti basati su Large Language Model (LLM) quando operano in task multi-step con orizzonti temporali estesi e ricompense sparse. I metodi value-free esistenti, come Group Relative Policy Optimization (GRPO), spesso incontrano difficoltà nell'ottenere stime accurate dei valori Q a livello di step e nell'allineare le baseline di valore per gli stati intermedi.

Per superare queste limitazioni, è stato introdotto HCAPO, un framework che integra l'assegnazione del credito a posteriori negli agenti LLM. HCAPO utilizza l'LLM stesso come critico post-hoc per raffinare i valori Q a livello di step attraverso un ragionamento basato sull'analisi dei risultati ottenuti. Inoltre, il meccanismo di vantaggio multi-scala di HCAPO supporta le baseline di valore, spesso inaccurate, negli stati decisionali critici.

Le valutazioni su benchmark complessi come WebShop e ALFWorld dimostrano che HCAPO supera costantemente i metodi di reinforcement learning (RL) più avanzati. In particolare, HCAPO ha ottenuto un miglioramento del 7,7% nel tasso di successo su WebShop e del 13,8% su ALFWorld rispetto a GRPO, utilizzando il modello Qwen2.5-7B-Instruct. Questi risultati suggeriscono che HCAPO migliora significativamente l'efficienza dell'esplorazione, promuove un processo decisionale più conciso e garantisce la scalabilità in task complessi e long-horizon.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

HCAPO: assegnazione del credito a posteriori per agenti LLM long-horizon

HCAPO: Migliorare l'efficienza degli agenti LLM

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Ottimizzazione LLM: nuovo metodo per un fine-tuning più efficiente

ATPO: Ottimizzazione adattiva per dialoghi medici multi-turno

llama.cpp integra il supporto Kimi-Linear: prestazioni migliorate