AIDABench: Valutare l'AI nell'analisi complessa dei dati

Con la crescente diffusione di strumenti di comprensione e elaborazione di documenti basati sull'AI, emerge la necessità di standard di valutazione rigorosi. I benchmark esistenti spesso si concentrano su capacità isolate, senza considerare l'efficacia end-to-end richiesta in contesti reali.

Per colmare questa lacuna, è stato introdotto AIDABench, un benchmark completo per valutare i sistemi di AI in attività complesse di analisi dei dati. AIDABench comprende più di 600 attività diversificate, suddivise in tre aree principali:

  • Question answering
  • Visualizzazione dei dati
  • Generazione di file

Queste attività sono basate su scenari realistici che coinvolgono dati eterogenei, tra cui fogli di calcolo, database, report finanziari e registri operativi, e riflettono le esigenze analitiche di diversi settori e funzioni aziendali. La difficoltà delle attività è tale che anche esperti umani, assistiti da strumenti di AI, richiedono in media 1-2 ore per rispondere a una singola domanda.

Performance dei modelli attuali

Sono stati valutati undici modelli allo stato dell'arte su AIDABench, tra cui modelli proprietari (come Claude Sonnet 4.5 e Gemini 3 Pro Preview) e open-source (come Qwen3-Max-2026-01-23-Thinking). I risultati mostrano che le attività complesse di analisi dei dati nel mondo reale rimangono una sfida significativa per i sistemi di AI attuali, con il modello più performante che raggiunge solo il 59.43% di "pass-at-1".

L'analisi dettagliata delle aree di fallimento evidenzia le sfide chiave per la ricerca futura. AIDABench si propone come riferimento per le aziende che devono scegliere strumenti, ottimizzare modelli e valutare le consegne. Il benchmark è disponibile pubblicamente su https://github.com/MichaelYang-lyx/AIDABench.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.