Quanta VRAM serve per gli LLM in locale?

Regola pratica: la VRAM (GB) deve superare i miliardi di parametri per i byte-per-peso (circa 0,5-0,6 a 4-bit), più ~15% per il contesto. Un 13B a 4-bit richiede ~8-10GB; un 70B a 4-bit ~40-48GB.

Una RTX 3090 usata conviene ancora nel 2026?

Per gli LLM in locale, sì — i suoi 24GB di VRAM e 936 GB/s di banda sono ciò che conta, e resta il miglior prezzo-per-GB per i singoli, spesso molto più economica di una 4090 pur eseguendo gli stessi modelli 4-bit a velocità chat simili.

Due GPU sommano la loro VRAM?

Di fatto sì per l'inferenza: i framework distribuiscono il modello tra le GPU, quindi 2x24GB possono contenere un modello che richiede ~48GB. NVLink aiuta la banda ma non è obbligatorio per molti setup di inferenza.

La banda di memoria conta più del compute?

Per l'inferenza LLM single-stream, sì — la generazione di token è in gran parte limitata dalla banda di memoria. Il compute conta di più per prompt processing, training e serving ad alto batch. Per questo una 3090 in chat è vicina a una 4090.

Le GPU AMD sono valide per gli LLM in locale?

Per inferenza via llama.cpp (Vulkan/ROCm) sì — le Radeon con molta VRAM sono usabili ed economiche per GB. Il divario resta nel tooling: progetti CUDA-first, stack di fine-tuning e server di produzione favoriscono ancora NVIDIA.

Un Mac è una buona alternativa a una GPU per gli LLM locali?

Un Mac con molta memoria unificata esegue modelli molto grandi che una GPU discreta non contiene, con meno consumi — ma genera token più lentamente di una GPU top e non è adatto al fine-tuning. Ottimo per uso desktop silenzioso di modelli grandi; non per il serving.

Le migliori GPU per LLM in locale (2026): guida all'acquisto

I due numeri che decidono tutto

Le prestazioni degli LLM in locale dipendono quasi solo dalla VRAM: se il modello e il suo contesto entrano nella memoria GPU, gira veloce; altrimenti i layer si riversano nella RAM di sistema e la velocità crolla di un ordine di grandezza. Scegliere una GPU significa scegliere una fascia di VRAM.

Dentro una fascia, il differenziatore è la banda di memoria — ed è la specifica che quasi tutti i compratori ignorano. Generare un token richiede far scorrere essenzialmente l'intero modello attraverso la GPU una volta, quindi i token/sec single-user ≈ banda ÷ dimensione del modello. Una 3090 (936 GB/s) che genera da un modello di 20 GB arriva a ~40–45 token/sec; una scheda da 288 GB/s ne fa ~13 con lo stesso modello. La conseguenza è scomoda: alcune schede "AI budget" con VRAM generosa ma bus stretto contengono modelli grandi e poi li eseguono a velocità inutilizzabili. Controlla sempre entrambi i numeri.

Il compute (TFLOPS, tensor core) conta per terzo: governa il prompt processing (quanto in fretta vengono ingeriti input lunghi — si sente nel RAG con contesti grandi), il fine-tuning e il serving ad alto batch. Per l'uso stile chat, domina la banda.

Fasce di VRAM — cosa esegue davvero ciascuna

VRAM	Schede esempio	Banda	Esegue (4-bit)
8–12GB	RTX 3060 12GB, 4060, A2000	~270–360 GB/s	fino a 7–8B; contesto limitato
16GB	RTX 4060 Ti 16GB, 4070 Ti S, A4000	~288–672 GB/s	fino a ~13–14B; occhio al bus sulla 4060 Ti
24GB	RTX 3090 / 4090, A5000	~770–1010 GB/s	7B–34B comodamente
32GB	RTX 5090	~1790 GB/s	fino a ~40B; l'inferenza consumer più veloce
48GB	RTX A6000 / 6000 Ada, 2×3090/4090	~770–960 GB/s	fino a ~70B (4-bit)
80–96GB	A100 / H100 / RTX 6000 Blackwell	~2000–3350 GB/s	70B+ a quant più alti, training

La formula di sizing

VRAM (GB) ≈ parametri(B) × byte/peso × 1.15

Byte per peso ≈ 0,5–0,6 (4-bit), 1 (8-bit), 2 (FP16). Il ×1,15 copre la KV-cache a contesto moderato — contesti lunghi (32k+) possono richiederne molta di più, e quantizzare la cache a Q8 ne recupera gran parte (vedi la guida alla quantizzazione). Esempio: un 34B a 4-bit ≈ 34 × 0,55 × 1,15 ≈ 21GB, quindi entra in una scheda da 24GB con margine per il contesto. Un 70B a 4-bit ≈ 40GB di pesi — da qui la fascia 48GB.

Il mercato dell'usato: dove sta il valore

Il miglior affare dell'AI locale resta la RTX 3090 usata: 24GB di VRAM a 936 GB/s a una frazione del prezzo dei 24GB nuovi. Poiché l'inferenza chat è bandwidth-bound, offre il 70–85% della velocità token di una 4090 sugli stessi modelli. Cosa controllare comprando usato:

Passato da mining — non squalifica automaticamente (le schede da mining undervoltate spesso hanno vissuto vite tranquille), ma scontalo nel prezzo. Chiedi screenshot di stress test (es. una run FurMark/OCCT con le temperature).
Termiche della VRAM — i chip di memoria posteriori della 3090 scaldano molto; molte schede usate beneficiano di un refresh dei thermal pad da 20€. Temperature di giunzione memoria sopra ~100°C sotto carico = pad esausti.
Garanzia reale — assumi zero. Lo sconto rispetto al nuovo è il tuo budget assicurativo.
3090 Ti / 4090 usata — la Ti corregge il design termico della memoria; le 4090 usate raramente scendono a prezzi interessanti per via della domanda AI. Se il divario con una 3090 usata è ampio, prendi la 3090.

Anche le schede ex-datacenter/workstation (A5000 24GB, A6000 48GB) compaiono nell'usato: dissipatori blower (più rumorosi ma ottimi da impilare), consumi più bassi, larghezza 2 slot — spesso la via più intelligente ai 48GB in una workstation.

NVIDIA, AMD, Intel — lo stato reale delle cose

NVIDIA è il default per una ragione: ogni strumento funziona, dal giorno uno, senza asterischi — CUDA resta il fossato. Se il tuo tempo ha valore o vuoi che fine-tuning, modelli immagine e stack di serving funzionino e basta, compra NVIDIA.

AMD è genuinamente usabile per l'inferenza: llama.cpp gira bene via Vulkan o ROCm, e le Radeon con molta VRAM costano meno di NVIDIA per GB. L'attrito compare oltre l'inferenza di base — ROCm supporta ufficialmente una lista ristretta di schede, gli stack di fine-tuning sono CUDA-first, e i percorsi AMD di molti progetti sono mantenuti dalla community. Buona per un box di inferenza dedicato ed economico; frustrante come piattaforma di sperimentazione.

Intel Arc offre prezzi VRAM aggressivi e supporto llama.cpp in miglioramento (SYCL/Vulkan), ma l'ecosistema è ancora più giovane. Viabile per smanettoni; non ancora una scelta set-and-forget.

L'alternativa Apple Silicon

Un Mac con memoria unificata gioca un'altra partita: un M-series Max/Ultra con 64–192GB può contenere modelli che nessuna GPU consumer regge — un 70B a Q5, persino MoE da 100B+ — in silenzio, a una frazione dei consumi. I compromessi: la banda di memoria (~400–800 GB/s) è sotto le GPU discrete di fascia alta, quindi le velocità token sui modelli grandi sono usabili-ma-non-veloci; il prompt processing su contesti molto lunghi è nettamente più lento delle schede CUDA; e il supporto al fine-tuning (MLX a parte) è limitato.

Scegli un Mac se vuoi i modelli più grandi possibili su un desktop silenzioso e vivi già in quell'ecosistema. Scegli un box GPU per velocità, serving, fine-tuning o prezzo nella fascia 24GB. Molti finiscono con entrambi: Mac per l'uso quotidiano dei modelli grandi, rig GPU per il lavoro pesante.

Multi-GPU: sommare la VRAM

Per l'inferenza, i framework distribuiscono il modello tra le GPU, quindi due schede da 24GB contengono un modello da ~48GB. Conosci le due modalità: layer split (default di llama.cpp — le GPU si alternano, la VRAM si somma ma la velocità è circa quella di una scheda sola) e tensor parallel (vLLM/ExLlama — le GPU lavorano simultaneamente; aggiunge velocità reale ma vuole schede uguali e interconnessione veloce). NVLink (3090) aiuta tensor parallel e training; il semplice PCIe va bene per l'inferenza layer-split.

Metti a budget la piattaforma, non solo le schede: due GPU vogliono ≥8 linee PCIe ciascuna (le schede HEDT/server lo fanno bene; le consumer spesso scendono a x8/x4), un alimentatore ~1200W per due schede top, un case con flusso d'aria che non cuocia la scheda superiore, e idealmente dissipatori blower o ibridi a 2 slot. Il dual-3090 è il classico rig 70B economico; una singola classe RTX A6000 fa lo stesso lavoro senza complessità, a caro prezzo.

Consumi: la voce invisibile

Una GPU da 350–450W usata spesso è un costo ricorrente — ai prezzi elettrici europei, un rig dual-GPU molto usato può costare centinaia di €/anno. Due mitigazioni: power-limit o undervolt (una 3090 limitata a ~250–280W perde tipicamente solo il 5–10% di velocità in inferenza — impostalo e dimenticalo con nvidia-smi -pl), e abbina la scheda al ciclo d'uso — se il box sta fermo gran parte del giorno, una scheda più piccola o il noleggio a burst di GPU cloud può battere il possesso (vedi la guida ai costi e il confronto RunPod-vs-Vast qui sotto).

Migliori scelte per profilo

Primo box LLM locale, budget stretto — RTX 3090 usata 24GB. Nient'altro si avvicina per euro speso.
Enthusiast / sviluppatore uso quotidiano — RTX 4090, o 5090 (32GB) se il budget lo consente: i ~1,8 TB/s di banda della 5090 sono l'inferenza consumer più veloce disponibile.
Piccolo team che serve un 70B on-prem — RTX A6000/6000 Ada 48GB (semplicità a scheda singola, driver pro), o doppia 3090 usata a metà prezzo e più assemblaggio.
Desktop silenzioso, modelli più grandi possibili — Mac Studio con memoria unificata al massimo.
Server di pura inferenza economico — AMD con molta VRAM via llama.cpp/Vulkan, con gli occhi aperti sul tooling.
Produzione / training — classe A100/H100/Blackwell — ma il noleggio a ore di solito batte l'acquisto finché l'utilizzo non è costantemente alto.

Errori comuni del compratore

Comprare VRAM su un bus stretto. 16GB su bus a 128-bit contengono un 13B e poi arrancano. Controlla i GB/s, non solo i GB.
Comprare per il modello che "prima o poi" userai. Una scheda da 80GB per chattare ogni tanto con un 7B è denaro bruciato; noleggia le run grandi.
Ignorare il resto del box. Il fallimento classico: 4090 ordinata, poi arriva il conto di alimentatore, spazio nel case (3,5+ slot!) e flusso d'aria.
Assumere che due schede = velocità doppia. Il layer-split raddoppia la capacità, non la velocità. Il tensor parallel aggiunge velocità ma vuole schede uguali.
Snobbare la RAM di sistema. 64GB di DDR permettono a llama.cpp di gestire con grazia i layer in overflow e di tenere in cache i modelli tra le run — assicurazione economica.