EVE: un nuovo approccio per LLM piรน affidabili

I modelli linguistici di grandi dimensioni (LLM) moderni, pur essendo generatori di testo efficaci, tendono a favorire continuazioni ad alta probabilitร , compromettendo la completezza e l'affidabilitร  delle risposte basate su documenti specifici. Un nuovo studio introduce EVE, un framework strutturato progettato per superare queste limitazioni.

Architettura e funzionamento di EVE

A differenza dei prompt in forma libera, EVE vincola la generazione a una pipeline strutturata e verificabile che scompone il ragionamento in fasi distinte: estrazione, validazione ed enumerazione. Questo approccio consente di migliorare significativamente il richiamo (recall), la precisione e l'F1-score, con incrementi fino al 24% e al 29% rispettivamente, e un guadagno del 31% nell'F1-score.

Implicazioni e limiti

EVE supera il tradizionale compromesso tra copertura e accuratezza tipico della generazione LLM a passaggio singolo, mitigando anche i problemi di troncamento dovuti a limitazioni di lunghezza. Tuttavia, lo studio evidenzia anche che le performance di EVE raggiungono un punto di saturazione a causa dell'ambiguitร  intrinseca del linguaggio naturale, riflettendo i limiti fondamentali del ragionamento basato sul linguaggio.