Trasparenza nei Transformer: controllo modulare via supervisione per layer

I Transformer, nonostante la loro efficacia, spesso si comportano come scatole nere, resistendo a interventi chirurgici mirati. L'ablazione di una attention head apparentemente cruciale può produrre cambiamenti minimi a causa della ridondanza distribuita.

Modularità Svelata

Una nuova ricerca propone un approccio architetturale che combina elaborazione dual-stream (separando token e rappresentazioni contestuali), supervisione per layer (fornendo un segnale di gradiente indipendente a ogni livello) e attenzione controllata (regolarizzando verso pattern di attivazione discreti). Questo svela una modularità latente.

Ablazione e Controllo

I modelli addestrati con supervisione per layer mostrano effetti di ablazione da 5 a 23 volte superiori rispetto ai controlli addestrati con obiettivi standard. Questo permette un controllo 4 volte maggiore sui comportamenti target, con variazioni fluide e prevedibili nell'output del modello. La supervisione per layer aumenta significativamente la varianza degli effetti di ablazione, rivelando le dipendenze tra predizioni e circuiti.

Validazione

L'approccio è validato tramite feature ingegnerizzate che catturano le dinamiche computazionali, un'architettura che fornisce controllo positivo per la modularità ed esperimenti causali che dimostrano la riorganizzazione funzionale, dove task diversi vengono indirizzati attraverso diverse attention head. Questo trasforma l'interpretabilità da osservazione passiva a controllo attivo.

Trasparenza nei Transformer: controllo modulare via supervisione per layer

Modularità Svelata

Ablazione e Controllo

Validazione

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

L'AI odierna è al limite: come andare oltre il Transformer con Nested Learning

I Transformer svelati: circuiti polinomiali tropicali

La truffa del troiano nel vocabolario: sabotaggio stealthy dei metodi di composizione LLM

👥 Unisciti a 160+ appassionati di AI