Le valutazioni (evals) sono fondamentali per definire e migliorare il comportamento degli agenti AI, come quelli utilizzati in Deep Agents, un framework open source. Un approccio ponderato alla creazione di evals è essenziale per garantire che gli agenti si comportino come previsto in produzione.
Come curare i dati per le valutazioni
Esistono diversi modi per reperire i dati per le valutazioni:
- Feedback derivante dall'uso interno degli agenti.
- Evals selezionate da benchmark esterni, adattate per un agente specifico.
- Evals e unit test sviluppati manualmente per comportamenti considerati importanti.
Tracciare ogni esecuzione di una eval permette di analizzare i problemi, apportare correzioni e valutare l'efficacia di una data eval. L'obiettivo è comprendere le modalità di errore, proporre una soluzione, rieseguire l'agente e monitorare i progressi nel tempo.
Come definire le metriche
La correttezza è il punto di partenza nella scelta di un modello per un agente. Successivamente, si passa all'efficienza. Le metriche misurate per ogni esecuzione di una eval includono:
- Correttezza: indica se il modello ha completato correttamente l'attività.
- Rapporto tra i passaggi: rapporto tra i passaggi osservati dell'agente e i passaggi ideali.
- Rapporto tra le chiamate agli strumenti: rapporto tra le chiamate agli strumenti osservate e le chiamate ideali.
- Rapporto di latenza: rapporto tra la latenza osservata e la latenza ideale.
- Tasso di risoluzione: numero di passaggi previsti / latenza osservata, con un punteggio di 0 se l'attività non è stata risolta correttamente.
Come eseguire le valutazioni
Le valutazioni vengono eseguite in CI (Continuous Integration) utilizzando pytest con GitHub Actions, garantendo un ambiente pulito e riproducibile. Ogni eval crea un'istanza di Deep Agent con un determinato modello, gli fornisce un'attività e calcola le metriche di correttezza ed efficienza. È possibile eseguire un sottoinsieme di eval utilizzando i tag per risparmiare sui costi e misurare esperimenti mirati.
Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!