DeepSeek Engram: memoria dedicata per LLM
DeepSeek AI ha annunciato Engram, una nuova architettura di memoria statica pensata per i modelli linguistici di grandi dimensioni (LLM). L'idea chiave è quella di integrare una memoria nativa che permetta di recuperare informazioni statiche – come entità, fatti o schemi – senza doverle ricalcolare ogni volta attraverso costosi livelli Transformer.
Engram introduce un concetto di "memoria condizionale", complementare al tradizionale approccio MoE (Mixture of Experts) che si concentra sul calcolo condizionale. Questa separazione tra memorizzazione e ragionamento consente agli LLM di ragionare più a fondo, gestire contesti più ampi e alleggerire il carico computazionale dei primi livelli dalle GPU.
Caratteristiche principali:
- Ricerca della conoscenza in O(1) invece del ricalcolo.
- Utilizzo di memoria parametrica esplicita.
- Miglioramento delle prestazioni nel ragionamento, nella matematica e nel codice.
- Scalabilità massiccia della memoria senza limiti imposti dalle GPU.
- Maggiore libertà per l'attenzione, che può concentrarsi sul ragionamento globale anziché sulla conoscenza statica.
In sintesi, Engram rappresenta un passo avanti nell'ottimizzazione degli LLM, consentendo loro di gestire la conoscenza in modo più efficiente e di concentrarsi sulle attività di ragionamento più complesse.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!