RoPE e input di lunghezza variabile: un'analisi geometrica
Rotary Positional Embedding (RoPE) è una tecnica ampiamente utilizzata per codificare la posizione nei modelli linguistici. Tuttavia, le performance tendono a calare quando la lunghezza degli input supera quella utilizzata nel training.
Un recente studio ha analizzato questo fenomeno da una prospettiva geometrica, evidenziando come input più lunghi compromettano la separazione tra i cluster di key e query nello spazio latente. Questo porta a un comportamento anomalo, inibendo la funzionalità dei "sink token", elementi che prevengono la mescolanza di token quando non necessario.
RoPE-ID: una soluzione per input estesi
Sulla base di questa analisi geometrica, i ricercatori propongono RoPE-ID (In Distribution), una modifica che consente ai livelli di attenzione di generalizzare a input più lunghi. RoPE-ID applica RoPE ad alta frequenza a un sottoinsieme di canali.
L'efficacia di RoPE-ID è stata dimostrata utilizzando Transformer con parametri 1B e 3B sui benchmark LongBench e RULER per l'information retrieval. Questa modifica permette di gestire input di lunghezza superiore senza un calo significativo delle performance.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!