RAMageddon è la nuova normalità: la guida Lenovo per sopravvivere alla scarsità di memoria

La dichiarazione che ha gelato la platea

A ISC 2026, il dirigente Lenovo ha usato un termine che da solo fotografa lo stato del mercato: RAMageddon. «Non sarà mai più come l’anno scorso», ha aggiunto, sintetizzando in poche parole una verità che molti provider e clienti enterprise stanno già vivendo: le memorie, dai moduli DRAM alle VRAM delle GPU, sono diventate una risorsa critica, dai prezzi elevati e dalla disponibilità incerta.

L’intervento non è stato un semplice sfogo, ma il preludio a quella che Lenovo definisce una guida alla sopravvivenza. Per chi costruisce stack hardware per LLM on-premise, l’annuncio ha il sapore di un avvertimento, ma anche di una chiamata a ripensare radicalmente le strategie di approvvigionamento.

La memoria come collo di bottiglia per l’inference on-premise

Quando si parla di eseguire modelli linguistici di grandi dimensioni su hardware proprio, la VRAM è da tempo il fattore limitante. Anche con tecniche di quantization spinte fino a INT4, modelli da 70 miliardi di parametri richiedono decine di gigabyte di memoria veloce. Aumentare il throughput richiede più GPU, e quindi più VRAM complessiva.

Ma la pressione sulla DRAM tradizionale non è da meno: i nodi di elaborazione devono gestire cache, preprocessing dei dati e spesso servire più modelli in parallelo. La scarsità di memoria, unita all’aumento dei costi, costringe i team a rivedere i piani di scaling. Non si tratta più solo di pagare di più: a volte i componenti semplicemente non si trovano nei tempi previsti.

La “guida alla sopravvivenza” secondo Lenovo

Lenovo non ha diffuso dettagli tecnici sulla propria ricetta, ma il messaggio centrale è chiaro: le aziende devono prepararsi a un mercato in cui la memoria rimarrà un bene scarso. La sopravvivenza passa per tre pilastri. Innanzitutto, la standardizzazione degli SKU per ridurre la complessità logistica e poter sostituire o espandere i nodi senza dipendere da componenti esoterici. In secondo luogo, una pianificazione degli acquisti che guardi molto più avanti, con contratti framework e buffer di scorta. Infine, un ripensamento dell’architettura stessa: privilegiare sistemi modulari, capaci di adattarsi a diversi profili di memoria, e investire in framework di serving efficienti che spremono ogni gigabyte disponibile.

Oltre al costo: sovranità e controllo

Per chi sceglie il deployment on-premise, la memoria non è solo una voce di costo: è un tassello della sovranità dei dati. Sistemi self-hosted vengono adottati proprio per tenere i dati sensibili all’interno dei confini aziendali e per evitare dipendenze da fornitori cloud esterni. Se l’hardware necessario scarseggia, quella sovranità può diventare un lusso difficile da mantenere. Anzi, alcuni progetti potrebbero slittare o essere ridimensionati, rallentando l’adozione di LLM in contesti regolamentati come finanza e sanità.

In questo scenario, AI-RADAR fornisce framework analitici per valutare i trade-off tra diverse configurazioni on-premise, aiutando a soppesare CapEx, consumo energetico e garanzie di fornitura. Non si tratta di indicare una soluzione unica, ma di fornire coordinate per decidere in un panorama che cambia rapidamente.

Cosa significa per chi costruisce stack locali

Il “RAMageddon” non è una crisi temporanea: è un cambio di regime. Chi oggi progetta un cluster per l’inference di LLM deve considerare la memoria come una risorsa scarsa, esattamente come l’energia elettrica o lo spazio rack. Vuol dire spingere l’efficienza lato software – dalla scelta del formato di quantization all’uso di attention ottimizzate – e prepararsi a convivere con tempi di consegna lunghi e prezzi volatili.

Allo stesso tempo, il messaggio di Lenovo segnala che i vendor stessi stanno ricalibrando le proprie roadmap. In futuro, potremmo vedere più macchine ottimizzate per memory bandwidth anche a scapito di potenza computazionale grezza, oppure il proliferare di soluzioni ibride che combinano DRAM e storage veloce. L’unica certezza, per ora, è che il mercato delle memorie non tornerà ai livelli di disponibilità e prezzo di un tempo.