Attention Sink nei LLM: un'analisi approfondita

I modelli linguistici di grandi dimensioni (LLM) spesso mostrano un comportamento peculiare: allocano una quantità di attenzione sproporzionata a token specifici, un fenomeno noto come 'attention sink'. Sebbene questi 'sink' siano generalmente considerati dannosi, è stata identificata un'eccezione notevole: l'enfasi costante del modello sul primo token della sequenza di input.

Un recente studio ha analizzato i meccanismi alla base della formazione di questi 'attention sink', concentrandosi in particolare sul primo token di input. I ricercatori hanno identificato un meccanismo semplice, denominato 'P0 Sink Circuit', che consente al modello di riconoscere il token in posizione zero e indurre un 'attention sink' entro due blocchi transformer, senza fare affidamento su informazioni semantiche.

Il ruolo del 'P0 Sink Circuit'

Questo meccanismo funge da base per l''attention sink' sulla posizione zero. Analizzando le tracce di training di un modello MoE A3B da 30 miliardi di parametri addestrato da zero, i ricercatori hanno scoperto che questo meccanismo emerge precocemente nel training e si concentra sempre più nei primi due layer. Questo suggerisce un possibile segnale per il monitoraggio degli stati di convergenza del pre-training.

Comprendere questi meccanismi interni è cruciale per ottimizzare le prestazioni dei LLM e mitigare potenziali effetti negativi derivanti da un'allocazione inefficiente dell'attenzione. Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi trade-off.