AMOR: Un approccio ibrido per l'attenzione nei modelli di linguaggio
Un nuovo studio introduce AMOR (Adaptive Metacognitive Output Router), un'architettura ibrida che combina modelli di spazio-stato (SSM) con meccanismi di attenzione sparse. L'obiettivo รจ superare i limiti dei transformer tradizionali, che allocano risorse computazionali uniformemente a ogni posizione, indipendentemente dalla sua importanza.
AMOR si ispira alle teorie del doppio processo cognitivo e utilizza l'entropia della predizione come indicatore di incertezza. Quando un modello SSM mostra incertezza, AMOR attiva dinamicamente l'attenzione sparse per migliorare la precisione nel recupero di informazioni. Questo approccio consente di riutilizzare i calcoli O(n) del modello SSM, proiettando chiavi e valori dagli stati nascosti (Ghost KV) invece di richiedere un'attenzione O(n^2) a ogni livello, come nei transformer standard.
Nei test sintetici, AMOR ha superato sia i modelli SSM-only che i transformer-only, raggiungendo una precisione di recupero perfetta attivando l'attenzione solo sul 22% delle posizioni. L'entropia della predizione si รจ dimostrata un segnale affidabile per l'attivazione dell'attenzione, con un divario significativo tra le posizioni di recupero e quelle locali. Le decisioni di routing di AMOR sono interpretabili in termini di teoria dell'informazione, offrendo una comprensione piรน chiara del processo decisionale del modello.
Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!