BioACE: Valutazione automatica di risposte in ambito biomedico

La crescente adozione di modelli linguistici di grandi dimensioni (LLM) per rispondere a quesiti in ambito biomedico rende cruciale la valutazione della qualità delle risposte generate e delle fonti citate a supporto.

La valutazione del testo generato dagli LLM rimane una sfida complessa, in particolare per attività come il question answering, la generazione aumentata dal recupero (RAG) e la summarization, a causa della necessità di una verifica da parte di esperti per garantire la coerenza con la letteratura scientifica e la terminologia medica specialistica.

BioACE è un framework automatizzato che valuta le risposte e le citazioni biomediche confrontandole con i fatti presentati nelle risposte. Il framework considera diversi aspetti, tra cui completezza, correttezza, precisione e recall, rispetto ai dati di riferimento.

Sono stati sviluppati approcci automatizzati per valutare ciascuno degli aspetti menzionati ed eseguiti esperimenti per analizzare la loro correlazione con le valutazioni umane. Sono stati presi in considerazione approcci esistenti, come l'inference del linguaggio naturale (NLI) e modelli linguistici pre-addestrati e LLM, per valutare la qualità delle prove fornite a supporto delle risposte generate sotto forma di citazioni nella letteratura biomedica.

Il package di valutazione BioACE è disponibile su GitHub.