Introduzione

Un nuovo framework di riferimento è stato introdotto per valutare l'interazione tra accuratezza e consistenza dei LLM (LLM) sotto variazioni di input controllate. Il framework propone una metrica globale che combina la curva della consrensibilità-accuratezza per quantificare il trade-off tra accuratezza e consistenza.

Come funziona il CAT

Il CAT (Consistency-Accuracy Relation) è un framework di riferimento che visualizza come la precisione dei modelli LLM varia con l'aumento delle richieste di consistenza. Il framework propone anche una metrica globale chiamata CORE (Consistency-Oriented Robustness Estimate), che combina l'area e la forma della curva CAR per quantificare il trade-off tra accuratezza e consistenza.

Applicazione del CAT

Il CAT è stato applicato a un insieme diverso di modelli LLM, inclusi generalistici e specializzati, su una serie di benchmark multi-selezione. Il risultato ha dimostrato l'efficacia del framework nel valutare la consistenza-accuratezza dei modelli LLM.

Estensione del CAT

Il CAT può essere esteso per supportare le valutazioni a lunga durata, aperte-ended, utilizzando funzioni di punteggi adattabili.