Distillazione della conoscenza mirata per LLM
La distillazione della conoscenza dai modelli linguistici di grandi dimensioni (LLM) si basa sull'assunto che la distribuzione di output del modello "teacher" sia un segnale di training di alta qualitร . Tuttavia, nei compiti di ragionamento, questa ipotesi spesso non รจ valida. Le rappresentazioni intermedie di un modello possono contenere la risposta corretta, ma queste informazioni possono andare perse o distorte durante la proiezione del vocabolario, dove la formattazione del prompt e le scelte dei token di risposta creano output fragili e rumorosi.
Questo articolo introduce un framework di distillazione che aggira questo collo di bottiglia addestrando sonde leggere sugli stati nascosti congelati del modello "teacher". Le predizioni della sonda, piuttosto che i logit di output, vengono utilizzate come supervisione per il training del modello "student". Questo approccio produce miglioramenti consistenti in diversi benchmark di ragionamento, con guadagni piรน pronunciati in condizioni di dati limitati.
Le sonde addestrate su rappresentazioni intermedie forniscono etichette piรน pulite rispetto agli output del modello "teacher", denoisando efficacemente il segnale di distillazione. Questo metodo non richiede modifiche architetturali al modello "student" o "teacher", รจ indipendente dall'architettura e aggiunge una computazione minima, poichรฉ il training della sonda รจ economico e le rappresentazioni del modello "teacher" possono essere memorizzate nella cache. Sfruttando le rappresentazioni interne, i professionisti possono estrarre piรน valore dai grandi modelli "teacher" senza dati di training aggiuntivi o complessitร architetturale.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!