Valutatori LLM potenziati da riferimenti

La ricerca affronta la sfida dell'allineamento dei modelli linguistici di grandi dimensioni (LLM) in contesti dove non รจ possibile una verifica oggettiva. Propone un metodo che utilizza valutatori LLM guidati da riferimenti per colmare questa lacuna. L'idea รจ che questi valutatori, supportati da output di riferimento, possano fungere da "verificatori" indiretti.

Protocolli di valutazione e risultati

Sono stati sviluppati protocolli di valutazione specifici per migliorare i valutatori LLM basati su LLM, sfruttando output di riferimento. Gli esperimenti dimostrano che l'approccio guidato da riferimenti aumenta notevolmente l'accuratezza dei valutatori meno performanti, utilizzando riferimenti da modelli avanzati. Anche i valutatori LLM piรน capaci traggono beneficio da riferimenti di alta qualitร , come quelli scritti da umani.

Auto-miglioramento guidato

Lo studio dimostra anche l'utilitร  di riferimenti di alta qualitร  nell'affinamento dell'allineamento. Gli LLM, guidati da riferimenti, vengono usati come valutatori per auto-migliorarsi. Questo auto-miglioramento guidato produce risultati migliori rispetto all'addestramento diretto (SFT) sugli output di riferimento e all'auto-miglioramento senza riferimenti. Le performance ottenute sono paragonabili all'addestramento con ArmoRM, un modello di ricompensa finemente messo a punto.

Nello specifico, il metodo ha raggiunto il 73,1% e il 58,7% su AlpacaEval e Arena-Hard con Llama-3-8B-Instruct, e il 70,0% e il 74,1% con Qwen2.5-7B. Questo corrisponde a guadagni medi assoluti di +20,2 / +17,1 punti rispetto alla distillazione SFT e +5,3 / +3,6 punti rispetto all'auto-miglioramento senza riferimenti su AlpacaEval / Arena-Hard.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.