Nuova teoria matematica sull'Attention nei modelli LLM

Un utente anonimo di un forum coreano dedicato all'intelligenza artificiale ha pubblicato una dimostrazione matematica che mette in discussione la comprensione attuale del meccanismo di Attention nei modelli linguistici di grandi dimensioni (LLM).

Il teorema d^2 Pullback

L'autore, che afferma di non lavorare nel settore degli LLM, presenta un documento intitolato "The d^2 Pullback Theorem: Why Attention is a d^2-Dimensional Problem". La tesi centrale è che la vera geometria di ottimizzazione dell'Attention sia d^2-dimensionale, dove 'd' rappresenta la dimensione dello spazio latente, e non n^2, dove 'n' è la lunghezza della sequenza di input. L'apparente collo di bottiglia n X n sarebbe un'illusione causata dalla normalizzazione softmax.

Softmax e matching euclideo

La dimostrazione suggerisce che i precedenti modelli di Attention lineare O(n) fallivano perché la rimozione della funzione esponenziale (softmax) distruggeva il contrasto necessario per il matching. Softmax crea questo "matching", ma artificialmente gonfia il rank a n, causando la complessità O(n^2).

CSQ Attention: una possibile soluzione

L'autore propone un'architettura chiamata CSQ (Centered Shifted-Quadratic) Attention, che sostituisce softmax con un kernel polinomiale di grado 2 (x^2). Questo approccio manterrebbe le proprietà di matching euclideo, stabilizzando l'addestramento e riducendo la complessità computazionale sia in fase di addestramento che di inference a O(nd^3).

La pubblicazione si conclude con un appello alla comunità scientifica affinché verifichi la validità della dimostrazione e ne esplori le potenziali applicazioni nello sviluppo di architetture Transformer più efficienti.

Nuova teoria matematica sull'Attention nei modelli LLM

Il teorema d^2 Pullback

Softmax e matching euclideo

CSQ Attention: una possibile soluzione

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

ARACH: Attenzione Globale per LLM senza Rientramento

Intelligenza artificiale: misurare le intenzioni dei modelli linguistici

LLM: i meccanismi degli 'attention sink' nei modelli linguistici

👥 Unisciti a 160+ appassionati di AI