Microsoft ha rilasciato AgentRx, un framework open source progettato per semplificare il debug degli agenti AI. L'obiettivo รจ affrontare la crescente complessitร di questi sistemi, che spesso operano su orizzonti temporali estesi, sono probabilistici e coinvolgono molteplici agenti, rendendo difficile individuare la causa principale di un errore.
Come funziona AgentRx
AgentRx normalizza i log di esecuzione, sintetizza vincoli eseguibili basati su schemi di strumenti e policy di dominio, e valuta questi vincoli passo dopo passo. Il sistema genera un log di validazione verificabile e utilizza un modello linguistico di grandi dimensioni (LLM) per identificare il punto critico di errore, ovvero il primo passo non recuperabile nella traiettoria dell'agente.
Benchmark e tassonomia
Insieme al framework, Microsoft ha rilasciato l'AgentRx Benchmark, un set di dati contenente 115 traiettorie di esecuzione fallite, annotate manualmente. Queste traiettorie provengono da diversi domini, tra cui ฯ-bench, Flash e Magentic-One. ร stata inoltre definita una tassonomia di nove categorie di errori, per aiutare gli sviluppatori a distinguere tra diverse tipologie di fallimento, come la mancata aderenza a un piano o l'invenzione di nuove informazioni.
Risultati
I test hanno dimostrato che AgentRx migliora significativamente l'accuratezza nell'individuazione degli errori (+23.6%) e nell'attribuzione della causa principale (+22.9%) rispetto ai metodi tradizionali basati su prompt. Questo permette agli sviluppatori di passare da un approccio di tentativi ed errori a una metodologia di engineering piรน sistematica.
Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!