Traversal-as-Policy: Un nuovo approccio per agenti LLM
La gestione della sicurezza e dell'efficienza negli agenti autonomi basati su LLM rappresenta una sfida complessa. Un nuovo studio introduce "Traversal-as-Policy", un metodo che utilizza Gated Behavior Trees (GBT) per controllare il comportamento di questi agenti.
Come funziona
L'approccio prevede l'estrazione di log di esecuzione da ambienti sandbox (OpenHands) e la loro distillazione in un singolo GBT eseguibile. Ogni nodo dell'albero rappresenta una macro di azione condizionata allo stato, derivata da traiettorie di successo. Le traiettorie considerate non sicure vengono bloccate tramite "gates" pre-esecuzione, aggiornati in base all'esperienza per evitare la riammissione di contesti pericolosi.
Risultati
I test su diversi benchmark (software, web, ragionamento, sicurezza) dimostrano che GBT migliora il tasso di successo, riduce le violazioni e diminuisce i costi. Ad esempio, su SWE-bench Verified (Protocol A, 500 issues), GBT-SE aumenta il successo dal 34.6% al 73.6%, riduce le violazioni dal 2.8% allo 0.2% e taglia l'utilizzo di token/caratteri da 208k/820k a 126k/490k. Con lo stesso albero distillato, esecutori 8B raddoppiano il successo su SWE-bench Verified (dal 14.0% al 58.8%) e WebArena (dal 9.1% al 37.3%).
Implicazioni
Questo approccio offre un modo per esternalizzare e verificare le policy degli agenti LLM, migliorando la sicurezza e l'efficienza. La possibilitร di ridurre i costi computazionali e aumentare il successo apre nuove prospettive per l'utilizzo di agenti autonomi in ambienti complessi.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!