Valutazione degli agenti AI: metriche e metodologie

Le valutazioni (evals) sono fondamentali per definire e migliorare il comportamento degli agenti AI, come quelli utilizzati in Deep Agents, un framework open source. Un approccio ponderato alla creazione di evals è essenziale per garantire che gli agenti si comportino come previsto in produzione.

Come curare i dati per le valutazioni

Esistono diversi modi per reperire i dati per le valutazioni:

Feedback derivante dall'uso interno degli agenti.
Evals selezionate da benchmark esterni, adattate per un agente specifico.
Evals e unit test sviluppati manualmente per comportamenti considerati importanti.

Tracciare ogni esecuzione di una eval permette di analizzare i problemi, apportare correzioni e valutare l'efficacia di una data eval. L'obiettivo è comprendere le modalità di errore, proporre una soluzione, rieseguire l'agente e monitorare i progressi nel tempo.

Come definire le metriche

La correttezza è il punto di partenza nella scelta di un modello per un agente. Successivamente, si passa all'efficienza. Le metriche misurate per ogni esecuzione di una eval includono:

Correttezza: indica se il modello ha completato correttamente l'attività.
Rapporto tra i passaggi: rapporto tra i passaggi osservati dell'agente e i passaggi ideali.
Rapporto tra le chiamate agli strumenti: rapporto tra le chiamate agli strumenti osservate e le chiamate ideali.
Rapporto di latenza: rapporto tra la latenza osservata e la latenza ideale.
Tasso di risoluzione: numero di passaggi previsti / latenza osservata, con un punteggio di 0 se l'attività non è stata risolta correttamente.

Come eseguire le valutazioni

Le valutazioni vengono eseguite in CI (Continuous Integration) utilizzando pytest con GitHub Actions, garantendo un ambiente pulito e riproducibile. Ogni eval crea un'istanza di Deep Agent con un determinato modello, gli fornisce un'attività e calcola le metriche di correttezza ed efficienza. È possibile eseguire un sottoinsieme di eval utilizzando i tag per risparmiare sui costi e misurare esperimenti mirati.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Valutazione degli agenti AI: metriche e metodologie

Come curare i dati per le valutazioni

Come definire le metriche

Come eseguire le valutazioni

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Benchmark per agenti AI: pronti per l'automazione aziendale?

TraderBench: un benchmark per valutare l'abilità degli agenti AI nei mercati

OpenAI punta sugli agenti AI: futuro a rischio per le app tradizionali?

👥 Unisciti a 160+ appassionati di AI