La geometria dei pesi rivela le differenze nascoste tra metodi di ragionamento offline

Sei metodi, una sola domanda: sono davvero diversi?

Chi lavora con i Large Language Models sa bene che le tecniche per distillare capacità di ragionamento da modelli più grandi a modelli più piccoli sono molteplici. Spesso ci si concentra solo sul risultato finale, ma un gruppo di ricercatori ha deciso di guardare dentro gli aggiornamenti dei pesi, chiedendosi se metodi come RFT, DPO o Offline GRPO siano meccanicamente distinti o convergano verso soluzioni simili. L’esperimento ha messo a confronto sei diversi approcci — SFT, RFT, DFT, RIFT, Offline GRPO e DPO — addestrando un modello Qwen3-4B con un LoRA limitato ai soli meccanismi di attenzione su un insieme identico di traiettorie matematiche. L’analisi si è poi spostata sulla geometria dello spazio dei pesi, usando similarità coseno, analisi degli angoli principali, connettività lineare tra modi e CKA.

Colinearità rassicurante: SFT, RFT e RIFT viaggiano in parallelo

Il primo dato che emerge è una quasi perfetta sovrapponibilità tra i delta dei pesi prodotti da SFT, RFT e RIFT. La similarità coseno supera 0.97 e l’angolo principale mediano tra i moduli è di appena 7 gradi. Anche le prestazioni su GSM8K sono statisticamente indistinguibili, con un’accuratezza tra l’87 e l’88% e test di McNemar che non raggiungono significatività. Dal punto di vista pratico, questo significa che se l’obiettivo è ottenere un modello capace di ragionare con buona affidabilità, queste tre tecniche sono intercambiabili e condividono lo stesso bacino di soluzione, un’informazione preziosa per chi vuole evitare complessità inutili.

Divergenze intenzionali: DFT e Offline GRPO prendono strade diverse

DFT (Direct Feedback Training) si allontana di più da SFT rispetto a qualsiasi metodo basato su ricompensa, pur essendo addestrato sugli stessi dati. Offline GRPO aggiunge invece una componente decisamente ortogonale alla direzione di SFT: a livello globale la frazione ortogonale è intorno al 67%, ma sale fino all’86% negli strati più profondi del modello. Nonostante ciò, il modello rimane ancorato al bacino di loss di SFT, suggerendo che l’esplorazione di nuove direzioni non comporta un allontanamento caotico ma può essere controllata. Questo dettaglio è cruciale per chi cerca un compromesso tra personalizzazione e stabilità.

DPO rompe gli schemi e ottiene il massimo

Il caso più estremo è quello di DPO, che si posiziona in un sottospazio quasi ortogonale rispetto a SFT, mostra una barriera di connettività tra modi e vede collassare la similarità CKA negli ultimi strati a circa 0.46. Eppure, nel protocollo sperimentale è proprio DPO a raggiungere la massima accuratezza su GSM8K (93,5%), con un test di McNemar altamente significativo rispetto a SFT. Il prezzo da pagare è un aggiornamento radicalmente diverso, che potrebbe avere implicazioni sulla robustezza, sulla trasferibilità del modello o sulla sua calibrazione, aspetti che vanno valutati con attenzione quando si pianifica un deployment.

Cosa cambia per chi fa fine-tuning on-premise

Per chi gestisce infrastrutture locali e ha bisogno di controllo completo su dati e modelli, questi risultati offrono una bussola. Se la priorità è la semplicità e la riproducibilità, le tecniche colineari come SFT o RIFT sono una scelta sicura che non richiede hardware eccessivo per il training. Se invece si punta al massimo delle prestazioni e si dispone di risorse computazionali adeguate, DPO può essere l’opzione da considerare, ma con la consapevolezza che il percorso di aggiornamento è radicalmente diverso e potrebbe interagire in modo imprevedibile con tecniche di quantization o con il serving in ambienti vincolati. Chi valuta deployment on-premise, inoltre, può trovare su AI-RADAR framework analitici per confrontare i trade-off tra diverse strategie di fine-tuning, senza doversi affidare a consigli generici.