Dal mercato di Shenzhen una RTX 5090 con 96 GB di VRAM: costa 8.200 dollari

Un paio di isolati nella caotica arena tech di Huaqiangbei bastano per cogliere quanto il mercato parallelo stia accelerando sulle GPU destinate all’intelligenza artificiale. Un report diretto dal quartiere dell’elettronica di Shenzhen ha svelato che si possono ordinare GeForce RTX 5090 modificate con 96 GB di VRAM, con una settimana di attesa e un esborso complessivo di circa 8.200 dollari.

Una scheda modificata a Huaqiangbei

Il venditore interpellato ha spiegato il meccanismo: la RTX 5090 di base viene venduta a 36.000 yuan, mentre l’intervento di sostituzione della memoria video per portarla a 96 GB comporta altri 20.000 yuan. Il totale sfiora i 56.000 yuan, equivalenti a circa 8.200 dollari secondo il cambio attuale. Non si tratta di un prodotto ufficiale NVIDIA, ma di un hack che combina la GPU Blackwell consumer con un quantitativo di VRAM normalmente riservato alle schede professionali come la RTX 6000.

La notizia circolava già attraverso annunci su AliExpress, ma questa testimonianza diretta conferma che dietro quelle inserzioni esiste una filiera reale, con tempi di consegna dichiarati di una settimana e la possibilità, per chi già possiede una 5090, di inviare la propria scheda per l’upgrade.

Perché 96 GB di VRAM contano per l’inference on-premise

Per chi gestisce carichi di inference LLM in locale, la quantità di VRAM rappresenta il collo di bottiglia principale. Modelli da decine di miliardi di parametri, anche dopo quantization aggressiva, faticano a essere contenuti nei 24-32 GB offerti dalle GPU consumer top di gamma. Con 96 GB si apre la possibilità di eseguire modelli più ampi senza ricorrere al cloud, mantenendo il controllo sui dati e riducendo la latenza.

La modifica non aggiunge core CUDA né modifica la larghezza di banda del bus di memoria, quindi le prestazioni di calcolo grezzo restano quelle della 5090. Tuttavia, per scenari self-hosted orientati al throughput su batch ridotte o alla sperimentazione, disporre di uno spazio di memoria generoso può fare la differenza tra un deployment possibile e uno bloccato da continui trasferimenti tra CPU e GPU.

Il calcolo del TCO: 8.200 dollari senza garanzia

Il dato più interessante del report è il prezzo: con 8.200 dollari ci si avvicina pericolosamente al costo di una RTX 6000 con garanzia ufficiale, indicata dall’autore del post attorno agli 11.000 dollari. La differenza di circa 2.800 dollari potrebbe non bastare a giustificare il rischio di una scheda priva di supporto, con possibili instabilità dei driver e una longevità tutta da verificare.

Chi già possiede una 5090, però, potrebbe valutare l’operazione con un esborso limitato a 20.000 yuan (circa 2.800 dollari). In quel caso il TCO diventa più interessante: si trasformerebbe una GPU consumer in un asset capace di gestire workload AI che normalmente richiederebbero hardware enterprise, con un investimento aggiuntivo contenuto.

Oltre l’aneddoto: cosa segnala il mercato parallelo

La comparsa di queste schede modificate non è una curiosità da appassionati, ma un segnale della fame di memoria video che l’ecosistema dell’AI sta generando. La domanda di soluzioni on-premise spinge fornitori non ufficiali a colmare il vuoto lasciato dai vendor tradizionali, che segmentano artificialmente le gamme consumer e professionali.

Per chi valuta deployment on-premise, questa vicenda conferma che i criteri di scelta non si fermano ai benchmark: vanno pesati rischi operativi, garanzia, compatibilità software e costi totali sul ciclo di vita. Ai-Radar offre strumenti analitici su /llm-onpremise per navigare queste decisioni, senza dimenticare che un hack, per quanto ingegnoso, resta un compromesso tra prestazioni e affidabilità.