PQR: Un Framework per Valutare gli Agenti LLM con Query Realistiche
La valutazione degli agenti basati su LLM rappresenta una sfida complessa, spesso richiedendo un notevole sforzo umano per identificare scenari di fallimento significativi. PQR è un nuovo framework che supera i limiti degli approcci precedenti, conce...