Valutatori LLM potenziati da riferimenti

La ricerca affronta la sfida dell'allineamento dei modelli linguistici di grandi dimensioni (LLM) in contesti dove non è possibile una verifica oggettiva. Propone un metodo che utilizza valutatori LLM guidati da riferimenti per colmare questa lacuna. L'idea è che questi valutatori, supportati da output di riferimento, possano fungere da "verificatori" indiretti.

Protocolli di valutazione e risultati

Sono stati sviluppati protocolli di valutazione specifici per migliorare i valutatori LLM basati su LLM, sfruttando output di riferimento. Gli esperimenti dimostrano che l'approccio guidato da riferimenti aumenta notevolmente l'accuratezza dei valutatori meno performanti, utilizzando riferimenti da modelli avanzati. Anche i valutatori LLM più capaci traggono beneficio da riferimenti di alta qualità, come quelli scritti da umani.

Auto-miglioramento guidato

Lo studio dimostra anche l'utilità di riferimenti di alta qualità nell'affinamento dell'allineamento. Gli LLM, guidati da riferimenti, vengono usati come valutatori per auto-migliorarsi. Questo auto-miglioramento guidato produce risultati migliori rispetto all'addestramento diretto (SFT) sugli output di riferimento e all'auto-miglioramento senza riferimenti. Le performance ottenute sono paragonabili all'addestramento con ArmoRM, un modello di ricompensa finemente messo a punto.

Nello specifico, il metodo ha raggiunto il 73,1% e il 58,7% su AlpacaEval e Arena-Hard con Llama-3-8B-Instruct, e il 70,0% e il 74,1% con Qwen2.5-7B. Questo corrisponde a guadagni medi assoluti di +20,2 / +17,1 punti rispetto alla distillazione SFT e +5,3 / +3,6 punti rispetto all'auto-miglioramento senza riferimenti su AlpacaEval / Arena-Hard.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.