VeRA: un nuovo approccio per la valutazione dell'AI

La valutazione dei modelli di intelligenza artificiale si basa spesso su benchmark statici, riutilizzati nel tempo e soggetti a memorizzazione e sfruttamento delle peculiarità del formato. Per superare questi limiti, è stato proposto VeRA (Verified Reasoning Data Augmentation), un framework che genera automaticamente nuovi benchmark a partire da problemi esistenti.

VeRA trasforma i problemi di benchmark in specifiche eseguibili, composte da:

  • Un template in linguaggio naturale con spazi riservati.
  • Un generatore coerente che campiona configurazioni valide.
  • Un verificatore deterministico che convalida i parametri e calcola le risposte corrette.

Da un singolo problema di partenza, VeRA crea automaticamente un numero illimitato di varianti verificate, con etichette affidabili e a costo marginale quasi nullo, senza intervento umano.

Modalità operative di VeRA

VeRA opera in due modalità complementari:

  • VeRA-E (equivalente): riscrive i problemi mantenendo intatta la logica sottostante, utile per rilevare la memorizzazione rispetto al ragionamento genuino.
  • VeRA-H (hardened): aumenta sistematicamente la complessità pur rimanendo verificabile, consentendo la creazione e l'etichettatura affidabile di nuovi compiti difficili.

La valutazione di 16 modelli all'avanguardia con VeRA ha evidenziato:

  • VeRA-E migliora la qualità della valutazione e rivela schemi di contaminazione.
  • VeRA-H consente la generazione senza intervento umano di compiti difficili con etichette affidabili.
  • VeRA stabilisce i benchmark verificati come un paradigma generale.

VeRA riconcettualizza i benchmark da oggetti statici utilizzati fino all'esaurimento, a specifiche eseguibili che generano istanze fresche e verificate su richiesta, migliorando la robustezza e l'efficacia dei costi per la valutazione.

VeRA è stato rilasciato open-source per stimolare la ricerca futura.