Un post su Reddit fa luce su una zona grigia del mercato hardware che tocca direttamente chi fa deployment on-premise di Large Language Models. Un piccolo laboratorio americano, attivo nella produzione di GPU custom con memoria espansa, ha dichiarato seccamente che le GeForce RTX 4090 e 5090 modificate con 96 GB di VRAM «sono letteralmente una truffa». Il verdetto è netto: a giugno 2026 queste schede non esistono, e chi le propone sta soltanto sfruttando la fame di VRAM della comunità AI.

Il laboratorio, che collabora con due fabbriche cinesi specializzate nella modifica di GPU consumer, ha finora ricevuto e verificato solo schede con 48 GB per la 4090 e 32 GB per la 4080 Super. La frontiera dei 96 GB, invece, è pura speculazione. Il problema non è teorico: molte organizzazioni che valutano infrastrutture self-hosted per LLM guardano con interesse alle GPU GeForce moddate come alternativa più economica alle workstation A100 o H100, ma il richiamo di memorie quadruplicate rispetto ai modelli standard (che offrono 24 GB) può diventare una trappola.

Lo schema della truffa

Le offerte di 4090 e 5090 da 96 GB circolano su forum, marketplace asiatici e alcuni canali Telegram, spesso con prezzi allettanti e tempistiche di consegna vaghe. Secondo l’amministratore del laboratorio (noto come /u/computune), si tratta di annunci basati sul nulla: nessun campione funzionante è mai stato mostrato né testato in modo indipendente. Chi paga per questi ordini non riceve mai la scheda e perde il capitale. In un momento storico in cui la domanda di VRAM per inference è alle stelle, la truffa attecchisce facilmente.

Perché la tentazione è così forte

Costruire un server inference on-premise con GPU consumer permette di controllare il Total Cost of Ownership e di mantenere i dati all’interno dei propri confini, aspetto cruciale per la sovranità digitale. Una RTX 4090 con 96 GB – se esistesse – consentirebbe di caricare modelli da 70 miliardi di parametri a FP16 senza suddividere il carico tra più schede, semplificando il deployment e riducendo la latenza. Sarebbe un game changer. Proprio questo potenziale, unito alla scarsità cronica di VRAM in fascia consumer, rende credibili annunci altrimenti palesemente fraudolenti.

Il framework più ampio per chi sceglie hardware on-prem

La vicenda conferma una regola non scritta ma riconosciuta da chi opera nel settore: le modifiche di terze parti sulle GPU consumer raggiungono limiti fisici e di validazione ben precisi. I 48 GB su architettura AD102 richiedono l’uso di moduli di memoria a densità doppia e interventi sul PCB che non possono scalare all’infinito senza compromettere la stabilità. Inoltre, le varianti professionali come L40S o RTX 6000 Ada offrono capacità elevate ma a un costo inaccessibile per molti laboratori indipendenti. Sul piano dell’analisi dei rischi, chi investe in acceleratori custom deve chiedersi non solo se il prodotto esiste, ma se ha una filiera di supporto verificabile.

L’approccio suggerito dal settore

Il messaggio del laboratorio non è solo un avvertimento: è un invito a condividere informazioni e a pretendere benchmark pubblici prima di qualsiasi acquisto. Per le realtà che desiderano valutare rischi e benefici del self-hosting di LLM, AI-RADAR offre strumenti analitici su /llm-onpremise per confrontare i trade-off tra GPU consumer moddate, soluzioni enterprise e cloud privato. La diversificazione delle fonti e la verifica indipendente restano le uniche difese in un mercato dove la disperazione per la VRAM si scontra con operazioni commerciali opache.

La lezione del giugno 2026 è chiara: i 96 GB annunciati restano un miraggio. L’unica scheda custom attualmente verificata sul campo è la 4090 da 48GB. Chi vuole portare sul serio l’inference on-premise farà bene a non rincorrere chimere.