Wave Field LLM: un nuovo approccio all'attenzione

È stato presentato un nuovo meccanismo di attenzione, denominato Wave Field LLM, che mira a superare i limiti di scalabilità dei tradizionali meccanismi di self-attention O(n²). L'approccio innovativo tratta il linguaggio come un sistema di campi fisici, sfruttando le dinamiche delle equazioni d'onda.

Come funziona

Il modello mappa i token in un campo continuo unidimensionale. L'informazione si propaga attraverso questo campo tramite equazioni d'onda smorzate, descritte dalla formula k(t) = exp(-α·t)·cos(ω·t + φ). Ogni attention head ha solo tre parametri fisici addestrabili: frequenza, smorzamento e fase. La convoluzione viene calcolata tramite FFT in O(n log n). Le attention heads si auto-organizzano in diversi ruoli, gestendo la grammatica locale, il contesto medio e le dipendenze a lungo raggio.

Risultati e limitazioni

I risultati preliminari su WikiText-2 (con 6 milioni di parametri e un tokenizer a livello di carattere) mostrano che Wave Field V3.5 raggiunge una perplexity di 6.2 e un'accuratezza del 50.5%, rispetto a 5.9 e 51.0% del transformer standard. Il vantaggio di Wave Field LLM aumenta con la lunghezza della sequenza: si parla di un fattore di 31x a 2.000 token, 107x a 8.000 e 367x a 32.000.

Una limitazione nota è un divario di capacità significativo rispetto ai transformer standard quando si utilizza un tokenizer BPE con un vocabolario di 8.000 token. Gli sviluppatori ritengono che questo sia un problema di capacità del modello su piccola scala, e stanno lavorando per scalare il modello a 100 milioni di parametri per colmare questo divario.

Caratteristiche uniche

Un aspetto distintivo di questo progetto è che ogni bug durante lo sviluppo è stato individuato attraverso diagnostiche basate sulla fisica (flusso di energia, conservazione, test di causalità), anziché tramite tentativi ed errori. Il modello utilizza l'accoppiamento del campo cross-head e l'interferenza delle onde per il routing delle informazioni. Gli autori sottolineano che non si tratta di una variante di Mamba/Hyena, ma di un approccio completamente diverso.

Il codice è disponibile su https://github.com/badaramoni/wave-field-llm.