I Transformer, nonostante la loro efficacia, spesso si comportano come scatole nere, resistendo a interventi chirurgici mirati. L'ablazione di una attention head apparentemente cruciale può produrre cambiamenti minimi a causa della ridondanza distribuita.
Modularità Svelata
Una nuova ricerca propone un approccio architetturale che combina elaborazione dual-stream (separando token e rappresentazioni contestuali), supervisione per layer (fornendo un segnale di gradiente indipendente a ogni livello) e attenzione controllata (regolarizzando verso pattern di attivazione discreti). Questo svela una modularità latente.
Ablazione e Controllo
I modelli addestrati con supervisione per layer mostrano effetti di ablazione da 5 a 23 volte superiori rispetto ai controlli addestrati con obiettivi standard. Questo permette un controllo 4 volte maggiore sui comportamenti target, con variazioni fluide e prevedibili nell'output del modello. La supervisione per layer aumenta significativamente la varianza degli effetti di ablazione, rivelando le dipendenze tra predizioni e circuiti.
Validazione
L'approccio è validato tramite feature ingegnerizzate che catturano le dinamiche computazionali, un'architettura che fornisce controllo positivo per la modularità ed esperimenti causali che dimostrano la riorganizzazione funzionale, dove task diversi vengono indirizzati attraverso diverse attention head. Questo trasforma l'interpretabilità da osservazione passiva a controllo attivo.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!