VeRA: un nuovo approccio per la valutazione dell'AI
La valutazione dei modelli di intelligenza artificiale si basa spesso su benchmark statici, riutilizzati nel tempo e soggetti a memorizzazione e sfruttamento delle peculiarità del formato. Per superare questi limiti, è stato proposto VeRA (Verified Reasoning Data Augmentation), un framework che genera automaticamente nuovi benchmark a partire da problemi esistenti.
VeRA trasforma i problemi di benchmark in specifiche eseguibili, composte da:
- Un template in linguaggio naturale con spazi riservati.
- Un generatore coerente che campiona configurazioni valide.
- Un verificatore deterministico che convalida i parametri e calcola le risposte corrette.
Da un singolo problema di partenza, VeRA crea automaticamente un numero illimitato di varianti verificate, con etichette affidabili e a costo marginale quasi nullo, senza intervento umano.
Modalità operative di VeRA
VeRA opera in due modalità complementari:
- VeRA-E (equivalente): riscrive i problemi mantenendo intatta la logica sottostante, utile per rilevare la memorizzazione rispetto al ragionamento genuino.
- VeRA-H (hardened): aumenta sistematicamente la complessità pur rimanendo verificabile, consentendo la creazione e l'etichettatura affidabile di nuovi compiti difficili.
La valutazione di 16 modelli all'avanguardia con VeRA ha evidenziato:
- VeRA-E migliora la qualità della valutazione e rivela schemi di contaminazione.
- VeRA-H consente la generazione senza intervento umano di compiti difficili con etichette affidabili.
- VeRA stabilisce i benchmark verificati come un paradigma generale.
VeRA riconcettualizza i benchmark da oggetti statici utilizzati fino all'esaurimento, a specifiche eseguibili che generano istanze fresche e verificate su richiesta, migliorando la robustezza e l'efficacia dei costi per la valutazione.
VeRA è stato rilasciato open-source per stimolare la ricerca futura.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!