La memoria ha smesso di essere una voce di costo standard nel budget di un data center. Con l’intelligenza artificiale, e in particolare con i Large Language Models, diventa una risorsa strategica che decide confini e fattibilità di un deployment. Lo ha messo nero su bianco il presidente di Winbond Electronics, James Chen, in un’intervista esclusiva: per l’azienda taiwanese, l’AI sta trasformando la memoria in un asset critico, e la prossima fase di crescita si gioca su due fronti precisi – DRAM e memoria Flash.

La dichiarazione arriva in un momento in cui l’intero settore sta ricalibrando il rapporto tra compute e storage. Fino a ieri bastava aggiungere GPU per scalare l’inference. Oggi, con modelli da decine di miliardi di parametri, il vero collo di bottiglia è spesso la capacità di tenere l’intero modello in memoria veloce. Senza DRAM sufficiente – tipicamente VRAM su GPU o memoria unificata su architetture come Apple Silicon – il modello non entra, oppure si degradano le prestazioni perché si attiva lo swapping su storage più lento. E qui entra in gioco la Flash: per scenari di inference batch o per il caricamento dinamico dei pesi, disporre di storage a bassa latenza diventa un fattore abilitante.

Non solo cloud: perché la memoria è il vero abilitatore on-premise

Chi valuta un deployment on-premise di un LLM si scontra subito con un trade-off: la privacy e il controllo spingono a tenere i dati locali, ma i vincoli hardware sono molto più stringenti che nel cloud. In questo contesto, ogni gigabyte di VRAM e ogni terabyte di storage Flash contano in modo diverso. La mossa di Winbond – che tipicamente opera nel segmento delle memorie specializzate e a basso consumo – segnala che la domanda non è più solo dai hyperscaler. Le aziende che costruiscono server per self-hosting, edge inference e ambienti air-gapped stanno alimentando un mercato parallelo dove le specifiche di memoria diventano un criterio di scelta primario, accanto alla potenza di calcolo.

La tendenza si innesta in un framework tecnico ben noto: la quantization (INT8, FP8) riduce il footprint, ma i modelli più grandi richiedono comunque centinaia di GB di memoria per l’inference senza sacrificare la qualità. Framework di serving come vLLM o llama.cpp permettono di spalmare il carico su più dispositivi, ma la latenza resta legata alla banda e alla capacità della memoria. Senza un quantitativo adeguato di DRAM veloce e di Flash per il caching dei pesi, anche il miglior software di orchestrazione fatica a mantenere le performance.

Oltre il benchmark: implicazioni per la sovranità dei dati e il TCO

C’è poi una dimensione meno tecnica ma altrettanto pesante: la sovranità dei dati. In settori regolamentati (sanità, finanza, difesa) l’obbligo di mantenere i dati in sede impone di poter eseguire i modelli in locale. Qui la memoria non è un costo marginale: è la condizione per essere compliant. Il Total Cost of Ownership si sposta: investire in configurazioni con più DRAM e storage Flash ad alta endurance può risultare più economico di dover ricorrere a cloud con accordi di residenza dati complessi e costosi. La scelta di Winbond di investire su queste due direttrici non è solo una scommessa commerciale; è il riflesso di un’esigenza strutturale che sta modellando l’infrastruttura AI a tutti i livelli.

Il prossimo passo: memoria come layer strategico

Quello che un tempo era un mercato di commodity, ciclico e guidato dal prezzo, si sta trasformando in un ecosistema dove la memoria diventa un layer architetturale. La prossima generazione di server per AI on-premise probabilmente integrerà gerarchie di memoria sempre più sofisticate: DRAM ad alta banda per l’inference in tempo reale, Flash a bassa latenza per la persistenza dei modelli e per lo scambio rapido tra diversi LLM. Winbond, con la sua specializzazione, potrebbe posizionarsi in nicchie dove il consumo energetico e l’affidabilità contano più dei volumi. Per chi progetta o seleziona hardware per eseguire LLM in locale, il messaggio è chiaro: la memoria non è solo una commodity, è la materia prima che delinea il vero perimetro del possibile.