Due RTX 3090 nel Thermaltake Core P3: l’ingegno al servizio dell’inference LLM locale

Le GPU di fascia consumer non sono mai nate per convivere in spazi pensati per il gaming tradizionale. Eppure, quando un utente su Reddit pubblica la foto del suo Thermaltake Core P3 con due RTX 3090 incastrate a ridosso di un radiatore angolato con un bracket stampato in 3D, il confine tra modding estetico e inference AI locale si fa sottilissimo. Il commento che accompagna lo scatto — «qwen 27b go brrrrr» — è tutto ciò che serve per capire il fine ultimo: far girare un LLM da 27 miliardi di parametri senza passare dal cloud.

Il Thermaltake Core P3 è un case aperto, pensato per esporre i componenti e facilitare il raffreddamento a liquido. La doppia RTX 3090 occupa però uno spazio che, con un radiatore montato in modo convenzionale, semplicemente non c’è. Da qui la soluzione: un supporto stampato a filamento che inclina il radiatore quel tanto che basta per liberare i millimetri necessari. Non è la prima volta che la community DIY incrocia hardware gaming e carichi AI, ma questa build ha il pregio di rendere visibile — letteralmente — quanto l’inference locale stia diventando una pratica alla portata di appassionati smaliziati.

Perché proprio due 3090

La scommessa delle RTX 3090 si gioca sulla VRAM. Ogni scheda offre 24 GB di memoria, per un totale di 48 GB quando sono in coppia. Un modello da 27 miliardi di parametri in FP16 richiederebbe circa 54 GB di VRAM: troppi per due 3090. Ma appena si applica una quantization a 4 bit, il fabbisogno scende sotto i 14 GB, ben gestibile anche su una singola scheda. Se l’utente sta usando entrambe le GPU, è probabile che stia distribuendo il carico via tensor parallelism, oppure che stia eseguendo il modello a precisione mista per ridurre latenza. In ogni caso, il messaggio implicito è che 48 GB di memoria complessiva aprono le porte a modelli di taglia media — Qwen 27B, Mistral 8x7B, LLaMA 3 70B quantizzato — senza bisogno di hardware enterprise.

Dal punto di vista del TCO, due 3090 usate costano oggi molto meno di una singola A100 o H100, pur offrendo una potenza di calcolo ragguardevole. Certo, mancano NVLink sulle 3090 (la tecnicia è assente), e la banda di comunicazione tra le schede passa per PCIe, con una penalizzazione in latenza per carichi che saturano il bus. Ma per batch di inference ridotti, come quelli tipici di un utilizzo personale o di un piccolo team, il limite è più teorico che pratico. E la sovranità dei dati — nessun prompt lascia la macchina — è un guadagno netto.

Il modding come abilitatore dell’on-premise

L’aspetto interessante non è solo tecnico: è culturale. La necessità di adattare fisicamente il case segnala che l’hardware consumer non è ancora progettato per scenari multi-GPU dedicati all’AI. Eppure, la comunità risponde con stampa 3D, sfasature di radiatori e pazienza da smanettoni. È lo stesso spirito che ha spinto i primi miner di criptovalute a costruire rig aperti, e che oggi alimenta un ecosistema di soluzioni self-hosted per LLM.

Per chi valuta un deployment on-premise, questa storia offre due spunti concreti. Primo: le 3090 restano un punto di equilibrio tra costo e capacità di VRAM, ideali per chi vuole sperimentare fine-tuning parziale o inference su modelli medio-grandi senza ricorrere al noleggio di GPU in cloud. Secondo: l’assemblaggio fisico non è un dettaglio trascurabile; case, alimentatori e dissipazione vanno ripensati, anche ricorrendo a soluzioni creative come i bracket su misura. AI-RADAR segue con attenzione le ricadute di queste scelte, in particolare sul fronte della gestione termica e dell’affidabilità nel tempo, due aspetti che in un contesto aziendale possono fare la differenza tra un prototipo funzionante e un servizio stabile.

L’immagine finale, con le due schede che sembrano quasi toccarsi e il radiatore in posizione obliqua, è la fotografia di un momento di passaggio: l’AI generativa sta uscendo dai data center e si sta facendo spazio dentro case pensati per i videogiochi, con l’aiuto di una dose di inventiva. E forse, tra qualche anno, guarderemo a queste build fai-da-te come alle prime avvisaglie di un’infrastruttura on-premise per LLM che oggi appare ancora in via di definizione.