Un pellicano SVG e due GPU: quantization spinta e inference locale su RTX 5090 + 3090

L'immagine di un pellicano in formato SVG ha attirato l'attenzione di un utente Reddit per la sua qualità, ma a colpire non è solo il risultato visivo: è il modo in cui è stata generata. Il modello GLM 5.2 UD IQ2_M, un Large Language Model con quantization particolarmente spinta, ha prodotto l'illustrazione su un sistema desktop non convenzionale, formato da una coppia di GPU di generazioni diverse collegate con bifurcation PCIe.

Un ponte tra due generazioni

Il cuore della configurazione è un abbinamento RTX 5090 e RTX 3090 su scheda madre Gigabyte AI TOP B850, accoppiata a un processore AMD Ryzen 9950X3D e 256 GB di RAM DDR5 a 5600 MHz. Le due schede video condividono le linee PCIe in modalità x8, una scelta tecnica che riduce la larghezza di banda teorica rispetto al collegamento x16 ma che, in questo contesto, non ha impedito al sistema di eseguire l'inference.

Il dato saliente è la sigla IQ2_M: indica una quantization a 2 bit per peso, tra le più basse disponibili. Questa tecnica comprime drasticamente il modello, consentendone l'esecuzione su hardware con limiti di VRAM, al prezzo di una potenziale perdita di precisione. Eppure, il risultato – un'immagine vettoriale complessa – dimostra che anche a questi livelli di compressione alcuni modelli mantengono capacità sorprendenti.

Prestazioni e compromessi

L'utente segnala un "tps basso" – ovvero un numero ridotto di token generati al secondo – un compromesso atteso quando si forza un LLM su due GPU con bus ridotto e quantization estrema. Non viene fornito un valore preciso, ma la percezione di lentezza emerge come il tallone d'Achille di questa configurazione. Per carichi di lavoro interattivi o in produzione, il throughput resta un fattore critico, soprattutto in contesti on-premise dove non si può delegare il calcolo a servizi cloud.

Il sistema non rappresenta una soluzione industriale, ma una dimostrazione concreta di come l'hardware consumer di fascia alta possa avvicinarsi a scenari di inference locale che fino a poco tempo fa richiedevano server dedicati. La scelta di due GPU eterogenee, per giunta con PCIe bifurcato, è sintomatica della crescente attenzione verso il Total Cost of Ownership: anziché investire in un singolo acceleratore professionale, si combinano più unità consumer per massimizzare la capacity complessiva a costi inferiori.

L'ascesa dei sistemi multi-GPU domestici

Il progetto non si ferma qui: l'utente prevede di migrare il carico su un sistema Threadripper equipaggiato con 8 (forse 12) RTX 3090. Un salto che moltiplica la VRAM disponibile e apre la strada a modelli più grandi o a esecuzioni meno compresse, riducendo i colli di bottiglia. È un trend visibile nella comunità del self-hosting AI: macchine assemblate con componenti consumer, spesso riciclate dal gaming o dal mining, diventano piattaforme di sperimentazione per LLM e modelli generativi.

L'episodio solleva questioni più ampie per chi valuta deployment on-premise. La quantization spinta può rendere accessibili modelli su hardware modesto, ma introduce variabili di qualità e latenza da valutare caso per caso. La scelta dell'infrastruttura, tra GPU di ultima generazione e soluzioni più datate ma abbondanti in numero, richiede bilanciamenti tra performance, costi energetici e complessità di gestione. Il pellicano SVG, in fondo, è il simbolo di un ecosistema che si sta spostando sempre più verso la sovranità dei dati e il calcolo locale, anche a costo di qualche compromesso tecnico.