HCAPO: Migliorare l'efficienza degli agenti LLM

La gestione dell'assegnazione del credito rappresenta una sfida significativa per gli agenti basati su Large Language Model (LLM) quando operano in task multi-step con orizzonti temporali estesi e ricompense sparse. I metodi value-free esistenti, come Group Relative Policy Optimization (GRPO), spesso incontrano difficoltร  nell'ottenere stime accurate dei valori Q a livello di step e nell'allineare le baseline di valore per gli stati intermedi.

Per superare queste limitazioni, รจ stato introdotto HCAPO, un framework che integra l'assegnazione del credito a posteriori negli agenti LLM. HCAPO utilizza l'LLM stesso come critico post-hoc per raffinare i valori Q a livello di step attraverso un ragionamento basato sull'analisi dei risultati ottenuti. Inoltre, il meccanismo di vantaggio multi-scala di HCAPO supporta le baseline di valore, spesso inaccurate, negli stati decisionali critici.

Le valutazioni su benchmark complessi come WebShop e ALFWorld dimostrano che HCAPO supera costantemente i metodi di reinforcement learning (RL) piรน avanzati. In particolare, HCAPO ha ottenuto un miglioramento del 7,7% nel tasso di successo su WebShop e del 13,8% su ALFWorld rispetto a GRPO, utilizzando il modello Qwen2.5-7B-Instruct. Questi risultati suggeriscono che HCAPO migliora significativamente l'efficienza dell'esplorazione, promuove un processo decisionale piรน conciso e garantisce la scalabilitร  in task complessi e long-horizon.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.