TrustifAI: un framework per valutare l'affidabilità delle risposte AI

TrustifAI è un framework innovativo che mira a risolvere un problema cruciale nell'utilizzo dei modelli linguistici di grandi dimensioni (LLM): la quantificazione e la spiegazione dell'affidabilità delle loro risposte.

Il problema delle allucinazioni

I sistemi RAG (Retrieval-Augmented Generation) possono generare risposte che sembrano corrette, ma che in realtà non sono supportate dai dati sottostanti, un fenomeno noto come "allucinazione". Un singolo punteggio di correttezza o rilevanza non è sufficiente, soprattutto in contesti aziendali, regolamentati o con elevati requisiti di governance. È fondamentale capire perché una risposta è fallace.

La soluzione TrustifAI

TrustifAI introduce un approccio multidimensionale per valutare l'affidabilità delle risposte AI. Invece di un semplice giudizio di "passa/fallisce", il framework calcola un "Trust Score" basato su diversi segnali:

Copertura delle evidenze: La risposta è effettivamente supportata dai documenti recuperati?
Coerenza epistemica: Il modello rimane stabile attraverso generazioni ripetute?
Deriva semantica: La risposta si è allontanata dal contesto fornito?
Diversità delle fonti: La risposta dipende eccessivamente da un singolo documento?
Confidenza nella generazione: Quanto era sicuro il modello durante la generazione della risposta?

Tracciabilità e spiegabilità

TrustifAI non si limita a fornire un numero, ma offre tracciabilità attraverso grafici di ragionamento (DAG) e visualizzazioni che mostrano perché una risposta è stata considerata affidabile o sospetta.

Differenze rispetto ai framework di valutazione LLM

A differenza dei framework di valutazione esistenti, che misurano la qualità complessiva di un sistema RAG, TrustifAI si concentra sulla spiegazione del perché una specifica risposta dovrebbe o non dovrebbe essere considerata attendibile.

Il progetto è open source e disponibile su GitHub. L'installazione è semplice tramite pip install trustifai.