Un utente anonimo di un forum coreano dedicato all'intelligenza artificiale ha pubblicato una dimostrazione matematica che mette in discussione la comprensione attuale del meccanismo di Attention nei modelli linguistici di grandi dimensioni (LLM).
Il teorema d^2 Pullback
L'autore, che afferma di non lavorare nel settore degli LLM, presenta un documento intitolato "The d^2 Pullback Theorem: Why Attention is a d^2-Dimensional Problem". La tesi centrale è che la vera geometria di ottimizzazione dell'Attention sia d^2-dimensionale, dove 'd' rappresenta la dimensione dello spazio latente, e non n^2, dove 'n' è la lunghezza della sequenza di input. L'apparente collo di bottiglia n X n sarebbe un'illusione causata dalla normalizzazione softmax.
Softmax e matching euclideo
La dimostrazione suggerisce che i precedenti modelli di Attention lineare O(n) fallivano perché la rimozione della funzione esponenziale (softmax) distruggeva il contrasto necessario per il matching. Softmax crea questo "matching", ma artificialmente gonfia il rank a n, causando la complessità O(n^2).
CSQ Attention: una possibile soluzione
L'autore propone un'architettura chiamata CSQ (Centered Shifted-Quadratic) Attention, che sostituisce softmax con un kernel polinomiale di grado 2 (x^2). Questo approccio manterrebbe le proprietà di matching euclideo, stabilizzando l'addestramento e riducendo la complessità computazionale sia in fase di addestramento che di inference a O(nd^3).
La pubblicazione si conclude con un appello alla comunità scientifica affinché verifichi la validità della dimostrazione e ne esplori le potenziali applicazioni nello sviluppo di architetture Transformer più efficienti.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!