Le prestazioni degli LLM in locale dipendono quasi solo dalla VRAM: se il modello e il suo contesto entrano nella memoria GPU, gira veloce; altrimenti si riversa nella RAM di sistema e la velocità crolla. Quindi scegliere una GPU significa scegliere una fascia di VRAM.
Fasce di VRAM
| VRAM | Schede esempio | Esegue (4 bit) |
|---|---|---|
| 8-12GB | RTX 3060/4060, A2000 | fino a 7-8B |
| 16GB | RTX 4060 Ti 16GB, A4000 | fino a 13B |
| 24GB | RTX 3090 / 4090, A5000 | 7B-34B comodamente |
| 48GB | RTX A6000, dual 3090/4090 | fino a ~70B |
| 80GB | A100 / H100 | 70B+ e training |
Migliori scelte qualità-prezzo
Singoli/hobbisti: una RTX 3090 (24GB) usata è regina del rapporto prezzo-prestazioni. Prosumer: RTX 4090. Piccoli team che servono 70B: una A6000 (48GB) o un rig dual-4090. Noleggiare una scheda da 80GB a ore spesso conviene rispetto all'acquisto, salvo utilizzo elevato.
Domande frequenti
Quanta VRAM serve?
Circa parametri(B) × 0,5 a 4 bit. 13B ≈ 8-10GB, 70B ≈ 40-48GB.