Le valutazioni (evals) sono fondamentali per definire e migliorare il comportamento degli agenti AI, come quelli utilizzati in Deep Agents, un framework open source. Un approccio ponderato alla creazione di evals è essenziale per garantire che gli agenti si comportino come previsto in produzione.

Come curare i dati per le valutazioni

Esistono diversi modi per reperire i dati per le valutazioni:

  1. Feedback derivante dall'uso interno degli agenti.
  2. Evals selezionate da benchmark esterni, adattate per un agente specifico.
  3. Evals e unit test sviluppati manualmente per comportamenti considerati importanti.

Tracciare ogni esecuzione di una eval permette di analizzare i problemi, apportare correzioni e valutare l'efficacia di una data eval. L'obiettivo è comprendere le modalità di errore, proporre una soluzione, rieseguire l'agente e monitorare i progressi nel tempo.

Come definire le metriche

La correttezza è il punto di partenza nella scelta di un modello per un agente. Successivamente, si passa all'efficienza. Le metriche misurate per ogni esecuzione di una eval includono:

  • Correttezza: indica se il modello ha completato correttamente l'attività.
  • Rapporto tra i passaggi: rapporto tra i passaggi osservati dell'agente e i passaggi ideali.
  • Rapporto tra le chiamate agli strumenti: rapporto tra le chiamate agli strumenti osservate e le chiamate ideali.
  • Rapporto di latenza: rapporto tra la latenza osservata e la latenza ideale.
  • Tasso di risoluzione: numero di passaggi previsti / latenza osservata, con un punteggio di 0 se l'attività non è stata risolta correttamente.

Come eseguire le valutazioni

Le valutazioni vengono eseguite in CI (Continuous Integration) utilizzando pytest con GitHub Actions, garantendo un ambiente pulito e riproducibile. Ogni eval crea un'istanza di Deep Agent con un determinato modello, gli fornisce un'attività e calcola le metriche di correttezza ed efficienza. È possibile eseguire un sottoinsieme di eval utilizzando i tag per risparmiare sui costi e misurare esperimenti mirati.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.