RoPE: analisi geometrica e miglioramenti per input di lunghezza variabile

RoPE e input di lunghezza variabile: un'analisi geometrica

Rotary Positional Embedding (RoPE) è una tecnica ampiamente utilizzata per codificare la posizione nei modelli linguistici. Tuttavia, le performance tendono a calare quando la lunghezza degli input supera quella utilizzata nel training.

Un recente studio ha analizzato questo fenomeno da una prospettiva geometrica, evidenziando come input più lunghi compromettano la separazione tra i cluster di key e query nello spazio latente. Questo porta a un comportamento anomalo, inibendo la funzionalità dei "sink token", elementi che prevengono la mescolanza di token quando non necessario.

RoPE-ID: una soluzione per input estesi

Sulla base di questa analisi geometrica, i ricercatori propongono RoPE-ID (In Distribution), una modifica che consente ai livelli di attenzione di generalizzare a input più lunghi. RoPE-ID applica RoPE ad alta frequenza a un sottoinsieme di canali.

L'efficacia di RoPE-ID è stata dimostrata utilizzando Transformer con parametri 1B e 3B sui benchmark LongBench e RULER per l'information retrieval. Questa modifica permette di gestire input di lunghezza superiore senza un calo significativo delle performance.

RoPE: analisi geometrica e miglioramenti per input di lunghezza variabile

RoPE e input di lunghezza variabile: un'analisi geometrica

RoPE-ID: una soluzione per input estesi

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Modelli di linguaggio grandi scoprono la geometria cognitiva

I modelli di linguaggio, una trappola per la comunicazione

MrRoPE: Un approccio unificato per estendere la finestra di contesto dei LLM

👥 Unisciti a 160+ appassionati di AI