WizardLM è tornata sulla scena con un nuovo studio intitolato "Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models".

Il problema affrontato

La ricerca mette in discussione l'approccio standard di migliorare i modelli di ricompensa generativi (GRM) semplicemente aumentando la lunghezza delle consegne. Gli autori sostengono che la struttura del ragionamento è altrettanto importante della lunghezza, specialmente in contesti di valutazione diversi.

  • Valutazione soggettiva (es. chat): richiede ampiezza (B-CoT), valutando simultaneamente diverse dimensioni come tono, formato e utilità.
  • Valutazione oggettiva (es. matematica/codice): richiede profondità (D-CoT), con una verifica deduttiva rigorosa passo dopo passo.

Forzare un modello a "pensare più a lungo" su un compito di chat soggettivo può accumulare rumore, mentre usare aspetti ampi su un problema di matematica può far perdere errori logici critici.

Mix-GRM: la soluzione proposta

Il team di WizardLM ha progettato un framework chiamato Mix-GRM che dota il GRM di capacità di ragionamento sia di ampiezza (B-CoT) che di profondità (D-CoT). Il modello è stato addestrato utilizzando Reinforcement Learning (RLVR) basandosi esclusivamente sulla supervisione del verdetto finale, senza etichette di routing esplicite. Sorprendentemente, l'allineamento strutturale del modello è salito al 95%, imparando autonomamente a polarizzare il suo ragionamento, selezionando dinamicamente l'ampiezza per la preferenza e la profondità per la correttezza.

Inoltre, Mix-GRM raggiunge performance superiori mantenendo il consumo di token nello stesso ordine di grandezza del ragionamento standard a passaggio singolo, a differenza delle baseline di length-scaling che consumano enormi quantità di token.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.