DeepSeek presenta Engram: memoria statica per modelli linguistici di grandi dimensioni

DeepSeek Engram: memoria dedicata per LLM

DeepSeek AI ha annunciato Engram, una nuova architettura di memoria statica pensata per i modelli linguistici di grandi dimensioni (LLM). L'idea chiave è quella di integrare una memoria nativa che permetta di recuperare informazioni statiche – come entità, fatti o schemi – senza doverle ricalcolare ogni volta attraverso costosi livelli Transformer.

Engram introduce un concetto di "memoria condizionale", complementare al tradizionale approccio MoE (Mixture of Experts) che si concentra sul calcolo condizionale. Questa separazione tra memorizzazione e ragionamento consente agli LLM di ragionare più a fondo, gestire contesti più ampi e alleggerire il carico computazionale dei primi livelli dalle GPU.

Caratteristiche principali:

Ricerca della conoscenza in O(1) invece del ricalcolo.
Utilizzo di memoria parametrica esplicita.
Miglioramento delle prestazioni nel ragionamento, nella matematica e nel codice.
Scalabilità massiccia della memoria senza limiti imposti dalle GPU.
Maggiore libertà per l'attenzione, che può concentrarsi sul ragionamento globale anziché sulla conoscenza statica.

In sintesi, Engram rappresenta un passo avanti nell'ottimizzazione degli LLM, consentendo loro di gestire la conoscenza in modo più efficiente e di concentrarsi sulle attività di ragionamento più complesse.

DeepSeek presenta Engram: memoria statica per modelli linguistici di grandi dimensioni

DeepSeek Engram: memoria dedicata per LLM

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Penuria di memoria: miglioramento previsto entro il 2027 grazie all'AI

CogCanvas: memoria potenziata per conversazioni lunghe con LLM

Memorie DRAM-like: svolta cinese apre a nuove prospettive