La VRAM necessaria dipende da due fattori: quanti parametri ha il modello e quanti byte occupa ciascun parametro — che dipende dalla quantizzazione. La quantizzazione scambia un po' di qualità per un grande risparmio di memoria, ed è così che i modelli 70B entrano in una sola scheda.

Llama 70B per quantizzazione

PrecisioneVRAM richiestaEntra su
4-bit (Q4)~40-48GBscheda 48GB, o 2×24GB
8-bit (Q8)~70GBscheda 80GB
FP16~140GB+2× 80GB (multi-GPU)

Aggiungi ~10-20% per la KV cache, che cresce con la lunghezza del contesto — contesti lunghi richiedono molta più memoria.

La formula di sizing per qualsiasi modello

VRAM (GB) ≈ parametri(B) × byte/peso × 1.15
dove byte/peso ≈ 0,5 (4 bit), 1 (8 bit), 2 (FP16). Esempio: 13B a 4 bit ≈ 13 × 0,5 × 1,15 ≈ 7,5GB.