WizardLM è tornata sulla scena con un nuovo studio intitolato "Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models".
Il problema affrontato
La ricerca mette in discussione l'approccio standard di migliorare i modelli di ricompensa generativi (GRM) semplicemente aumentando la lunghezza delle consegne. Gli autori sostengono che la struttura del ragionamento è altrettanto importante della lunghezza, specialmente in contesti di valutazione diversi.
- Valutazione soggettiva (es. chat): richiede ampiezza (B-CoT), valutando simultaneamente diverse dimensioni come tono, formato e utilità.
- Valutazione oggettiva (es. matematica/codice): richiede profondità (D-CoT), con una verifica deduttiva rigorosa passo dopo passo.
Forzare un modello a "pensare più a lungo" su un compito di chat soggettivo può accumulare rumore, mentre usare aspetti ampi su un problema di matematica può far perdere errori logici critici.
Mix-GRM: la soluzione proposta
Il team di WizardLM ha progettato un framework chiamato Mix-GRM che dota il GRM di capacità di ragionamento sia di ampiezza (B-CoT) che di profondità (D-CoT). Il modello è stato addestrato utilizzando Reinforcement Learning (RLVR) basandosi esclusivamente sulla supervisione del verdetto finale, senza etichette di routing esplicite. Sorprendentemente, l'allineamento strutturale del modello è salito al 95%, imparando autonomamente a polarizzare il suo ragionamento, selezionando dinamicamente l'ampiezza per la preferenza e la profondità per la correttezza.
Inoltre, Mix-GRM raggiunge performance superiori mantenendo il consumo di token nello stesso ordine di grandezza del ragionamento standard a passaggio singolo, a differenza delle baseline di length-scaling che consumano enormi quantità di token.
Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!