Le prestazioni degli LLM in locale dipendono quasi solo dalla VRAM: se il modello e il suo contesto entrano nella memoria GPU, gira veloce; altrimenti si riversa nella RAM di sistema e la velocità crolla. Quindi scegliere una GPU significa scegliere una fascia di VRAM.

Fasce di VRAM

VRAMSchede esempioEsegue (4 bit)
8-12GBRTX 3060/4060, A2000fino a 7-8B
16GBRTX 4060 Ti 16GB, A4000fino a 13B
24GBRTX 3090 / 4090, A50007B-34B comodamente
48GBRTX A6000, dual 3090/4090fino a ~70B
80GBA100 / H10070B+ e training

Migliori scelte qualità-prezzo

Singoli/hobbisti: una RTX 3090 (24GB) usata è regina del rapporto prezzo-prestazioni. Prosumer: RTX 4090. Piccoli team che servono 70B: una A6000 (48GB) o un rig dual-4090. Noleggiare una scheda da 80GB a ore spesso conviene rispetto all'acquisto, salvo utilizzo elevato.

Domande frequenti

Quanta VRAM serve?
Circa parametri(B) × 0,5 a 4 bit. 13B ≈ 8-10GB, 70B ≈ 40-48GB.