DeepSeek aggira i limiti dei chip per addestrare modelli AI più grandi

DeepSeek, una startup cinese nel settore dell'intelligenza artificiale, ha presentato una soluzione innovativa per la creazione di modelli AI più grandi e performanti, minimizzando la necessità di chip di ultima generazione, il cui accesso è limitato dalle restrizioni sull'esportazione imposte dagli Stati Uniti.

Engram: una soluzione per ottimizzare l'uso della memoria

La tecnica, descritta in un documento tecnico dal fondatore di DeepSeek, Liang Wenfeng, e da ricercatori dell'Università di Pechino, affronta un problema cruciale: i modelli AI stanno diventando talmente vasti da superare i limiti di memoria anche delle GPU più avanzate. La soluzione di DeepSeek, denominata "Engram", crea un sistema di archiviazione più efficiente, separando i dati di base dai calcoli complessi. Questo permette di liberare potenza di calcolo preziosa per le operazioni più impegnative.

L'importanza della memoria nei chip

L'accesso rapido a grandi quantità di informazioni è fondamentale per l'addestramento e l'utilizzo dei modelli AI moderni. Questo richiede memorie ad alta larghezza di banda (HBM), integrate nelle GPU avanzate. La Cina si trova in una posizione di svantaggio in questo settore, con il principale produttore cinese di chip di memoria, ChangXin Memory Technologies, che rimane indietro rispetto ai leader del settore come Samsung, SK Hynix e Micron.

Come funziona la svolta

I modelli AI tradizionali gestiscono tutto tramite calcoli, anche il recupero di informazioni semplici. Engram cambia questo approccio, consentendo ai modelli di "consultare" i fatti fondamentali in modo più efficiente, simile a come gli umani consultano un libro di riferimento. Questo approccio migliora anche la gestione di input più lunghi, un ostacolo significativo per l'implementazione di chatbot AI come assistenti pratici.

Risultati e prospettive

I test su un modello da 27 miliardi di parametri hanno mostrato miglioramenti nelle prestazioni e una maggiore capacità di calcolo per le attività più complesse. Elie Bakouch, un ingegnere di ricerca presso Hugging Face, ha elogiato la tecnica per la sua implementazione pratica. DeepSeek prevede di lanciare un modello V4 con funzionalità di programmazione avanzate, in concomitanza con il primo anniversario del suo modello R1. La comunità scientifica esaminerà attentamente il documento tecnico, poiché DeepSeek è diventata un esempio importante di innovazione cinese nel campo dell'IA, operando nonostante le restrizioni statunitensi sui semiconduttori avanzati.