Gli agenti AI stanno guadagnando autonomia, ma la loro adozione in ambienti aziendali comporta rischi significativi. Per mitigare questi rischi, ricercatori di Carnegie Mellon University e Fujitsu hanno sviluppato tre benchmark per valutare quando gli agenti AI sono sufficientemente sicuri ed efficaci per gestire operazioni aziendali senza supervisione umana.
FieldWorkArena: sicurezza sul campo
Il primo benchmark, FieldWorkArena, valuta gli agenti AI impiegati in ambienti di logistica e produzione, come fabbriche e magazzini. Misura l'accuratezza degli agenti nel rilevare violazioni delle norme di sicurezza e deviazioni dalle procedure di lavoro, nonchรฉ nella generazione di rapporti sugli incidenti. I test utilizzano dati reali, inclusi manuali di lavoro, normative sulla sicurezza e immagini/video acquisiti in loco. I volti e le aree di lavoro sensibili vengono oscurati per proteggere la privacy.
I ricercatori hanno valutato tre LLM multimodali (Claude Sonnet 3.7, Gemini 2.0 Flash e GPT-4o) e hanno riscontrato che, sebbene eccellessero nell'estrazione di informazioni e nel riconoscimento delle immagini, i modelli tendevano a "fantasticare" e avevano difficoltร a contare oggetti con precisione e a misurare distanze specifiche.
ECHO e RAG: gestione della conoscenza
Gli altri due benchmark, ECHO (EvidenCe-prior Hallucination Observation) e un benchmark RAG (Retrieval-Augmented Generation) aziendale, valutano rispettivamente l'efficacia delle strategie di mitigazione delle allucinazioni nei modelli di visione-linguaggio e la capacitร degli agenti AI di recuperare dati da una knowledge base autorevole e utilizzarli per migliorare le proprie risposte. I risultati di ECHO indicano che tecniche come il cropping delle immagini e il reinforcement learning possono ridurre le allucinazioni.
Fujitsu prevede di ampliare le capacitร dei benchmark per coprire altri settori e casi d'uso, aggiornandoli continuamente per riflettere l'evoluzione degli agenti AI. Per chi valuta deployment on-premise, esistono trade-off che AI-RADAR analizza in dettaglio nella sezione /llm-onpremise.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!