DeepSearchQA: Valutare la capacità di ricerca approfondita degli agenti

È stato introdotto DeepSearchQA, un benchmark composto da 900 prompt progettato per valutare le prestazioni degli agenti in task complesse di ricerca di informazioni multi-step in 17 diversi settori. Questo nuovo dataset si distingue dai benchmark tradizionali, che spesso si concentrano sul recupero di singole risposte o sulla verifica della fattualità su ampio spettro.

DeepSearchQA mira a valutare tre capacità fondamentali: la collazione sistematica di informazioni frammentate provenienti da fonti disparate, la de-duplicazione e la risoluzione di entità per garantire la precisione, e la capacità di ragionare sui criteri di arresto all'interno di uno spazio di ricerca aperto. Ogni task è strutturata come una catena causale, in cui la scoperta di informazioni per un passaggio dipende dal completamento del precedente, enfatizzando la pianificazione a lungo termine e la conservazione del contesto.

La valutazione degli agenti allo stato dell'arte ha rivelato limitazioni significative, con difficoltà nel bilanciare un alto recall con la precisione. Sono stati osservati diversi modelli di fallimento, tra cui l'arresto prematuro della ricerca e comportamenti di hedging, in cui gli agenti producono un'ampia gamma di risposte a bassa confidenza per aumentare artificialmente il recall. Questi risultati indicano che c'è ancora margine per migliorare le architetture degli agenti di ricerca.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.