Microsoft ha rilasciato AgentRx, un framework open source progettato per semplificare il debug degli agenti AI. L'obiettivo è affrontare la crescente complessità di questi sistemi, che spesso operano su orizzonti temporali estesi, sono probabilistici e coinvolgono molteplici agenti, rendendo difficile individuare la causa principale di un errore.
Come funziona AgentRx
AgentRx normalizza i log di esecuzione, sintetizza vincoli eseguibili basati su schemi di strumenti e policy di dominio, e valuta questi vincoli passo dopo passo. Il sistema genera un log di validazione verificabile e utilizza un modello linguistico di grandi dimensioni (LLM) per identificare il punto critico di errore, ovvero il primo passo non recuperabile nella traiettoria dell'agente.
Benchmark e tassonomia
Insieme al framework, Microsoft ha rilasciato l'AgentRx Benchmark, un set di dati contenente 115 traiettorie di esecuzione fallite, annotate manualmente. Queste traiettorie provengono da diversi domini, tra cui τ-bench, Flash e Magentic-One. È stata inoltre definita una tassonomia di nove categorie di errori, per aiutare gli sviluppatori a distinguere tra diverse tipologie di fallimento, come la mancata aderenza a un piano o l'invenzione di nuove informazioni.
Risultati
I test hanno dimostrato che AgentRx migliora significativamente l'accuratezza nell'individuazione degli errori (+23.6%) e nell'attribuzione della causa principale (+22.9%) rispetto ai metodi tradizionali basati su prompt. Questo permette agli sviluppatori di passare da un approccio di tentativi ed errori a una metodologia di engineering più sistematica.
Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!