Distillazione della conoscenza mirata per LLM
La distillazione della conoscenza dai modelli linguistici di grandi dimensioni (LLM) si basa sull'assunto che la distribuzione di output del modello "teacher" sia un segnale di training di alta qualità. Tuttavia, nei compiti di ragionamento, questa ipotesi spesso non è valida. Le rappresentazioni intermedie di un modello possono contenere la risposta corretta, ma queste informazioni possono andare perse o distorte durante la proiezione del vocabolario, dove la formattazione del prompt e le scelte dei token di risposta creano output fragili e rumorosi.
Questo articolo introduce un framework di distillazione che aggira questo collo di bottiglia addestrando sonde leggere sugli stati nascosti congelati del modello "teacher". Le predizioni della sonda, piuttosto che i logit di output, vengono utilizzate come supervisione per il training del modello "student". Questo approccio produce miglioramenti consistenti in diversi benchmark di ragionamento, con guadagni più pronunciati in condizioni di dati limitati.
Le sonde addestrate su rappresentazioni intermedie forniscono etichette più pulite rispetto agli output del modello "teacher", denoisando efficacemente il segnale di distillazione. Questo metodo non richiede modifiche architetturali al modello "student" o "teacher", è indipendente dall'architettura e aggiunge una computazione minima, poiché il training della sonda è economico e le rappresentazioni del modello "teacher" possono essere memorizzate nella cache. Sfruttando le rappresentazioni interne, i professionisti possono estrarre più valore dai grandi modelli "teacher" senza dati di training aggiuntivi o complessità architetturale.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!