RISORSA GRATUITA
Il Cheat-Sheet Hardware per LLM Locali
Una pagina con tutto ciò che serve per dimensionare l'hardware per LLM locali: la formula della VRAM, fasce GPU, tabella modello-VRAM, quantizzazione e regole di costo. Inserisci la tua email e appare qui sotto — più ricevi le nostre analisi quando c'è segnale vero.
✓ Eccolo — aggiungi ai preferiti o stampa questa pagina.
1. La formula della VRAM
VRAM (GB) ≈ parametri(B) × byte/peso × 1.15
byte/peso: 0,5 (4-bit) · 1 (8-bit) · 2 (FP16). Il ×1,15 copre la KV cache; contesti lunghi richiedono di più.
2. Modello → VRAM (4-bit)
| Modello | VRAM (4-bit) | Scheda |
| 7B | ~4GB | 8GB |
| 13B | ~8GB | 12–16GB |
| 34B | ~20GB | 24GB (3090/4090) |
| 70B | ~40–48GB | 48GB (A6000) / 2×24GB |
| 70B (8-bit) | ~70GB | 80GB (A100/H100) |
3. Fasce GPU
- 24GB (RTX 3090/4090) — punto ideale: 7B–34B. 3090 usata = miglior valore/GB.
- 48GB (A6000 / 2×24GB) — 70B a 4-bit.
- 80GB (A100/H100) — 70B+ e training; spesso più economico a noleggio.
4. Quantizzazione
4-bit = il default (≈4× più piccolo, piccolo costo qualità). 8-bit ≈ quasi lossless. GGUF per CPU/Mac (Ollama/LM Studio); AWQ/GPTQ per serving GPU (vLLM/TGI).
5. Regola di costo
Il locale batte il cloud solo sopra il ~30–40% di utilizzo GPU costante. Sotto, noleggia al secondo. Confronta €/milione-token (hardware ammortizzato + energia + manutenzione ÷ token), non prezzo GPU vs tariffa oraria.
6. Software
LM Studio (GUI, no-code) · Ollama (dev, un comando, API locale) · vLLM/TGI (produzione, alta concorrenza). Tutti parlano una API compatibile OpenAI.
Vuoi il dettaglio dietro ogni riga? Vedi le guide complete →