AMOR: attenzione adattiva per modelli di spazio-stato tramite entropia

AMOR: Un approccio ibrido per l'attenzione nei modelli di linguaggio

Un nuovo studio introduce AMOR (Adaptive Metacognitive Output Router), un'architettura ibrida che combina modelli di spazio-stato (SSM) con meccanismi di attenzione sparse. L'obiettivo è superare i limiti dei transformer tradizionali, che allocano risorse computazionali uniformemente a ogni posizione, indipendentemente dalla sua importanza.

AMOR si ispira alle teorie del doppio processo cognitivo e utilizza l'entropia della predizione come indicatore di incertezza. Quando un modello SSM mostra incertezza, AMOR attiva dinamicamente l'attenzione sparse per migliorare la precisione nel recupero di informazioni. Questo approccio consente di riutilizzare i calcoli O(n) del modello SSM, proiettando chiavi e valori dagli stati nascosti (Ghost KV) invece di richiedere un'attenzione O(n^2) a ogni livello, come nei transformer standard.

Nei test sintetici, AMOR ha superato sia i modelli SSM-only che i transformer-only, raggiungendo una precisione di recupero perfetta attivando l'attenzione solo sul 22% delle posizioni. L'entropia della predizione si è dimostrata un segnale affidabile per l'attivazione dell'attenzione, con un divario significativo tra le posizioni di recupero e quelle locali. Le decisioni di routing di AMOR sono interpretabili in termini di teoria dell'informazione, offrendo una comprensione più chiara del processo decisionale del modello.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

AMOR: attenzione adattiva per modelli di spazio-stato tramite entropia

AMOR: Un approccio ibrido per l'attenzione nei modelli di linguaggio

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Scoprendere le lacune di competenza nei modelli LLM

I modelli di intelligenza artificiale più vulnerabili: cosa significa per l'industria

Allineamento LLM: intervento selettivo per inference efficiente

👥 Unisciti a 160+ appassionati di AI