Un progetto curioso dimostra come un modello linguistico possa essere forzato a "vedere" immagini.
Dettagli dell'implementazione
Un tecnico ha bloccato un modello GPT-2 XL e ha ottimizzato i tensori di embedding in input per generare le mappe di attenzione corrispondenti ai frame del video musicale di Bad Apple. L'ottimizzazione รจ stata eseguita su una singola attention head (head 0, layer 0), calcolando le proiezioni Q e K. La loss function utilizzata รจ MSE nello spazio logit (pre-softmax). L'intero processo ha richiesto circa 12 minuti su una GPU RTX 5070 Ti con 4.5 GB di VRAM per elaborare 3286 frame.
Risultati
Il risultato รจ una visualizzazione inattesa delle capacitร di un modello linguistico, che, pur non essendo addestrato con immagini, puรฒ essere manipolato per rappresentarle visivamente attraverso le sue mappe di attenzione. Questo tipo di esperimenti aiuta a comprendere meglio il funzionamento interno dei modelli di linguaggio e le loro potenzialitร nascoste.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!