I pesi di un modello sono miliardi di numeri. Per default ciascuno è in 16 bit (FP16); la quantizzazione li memorizza in meno — 8, 4, persino 2 bit — mappando l'intervallo di valori su un insieme più piccolo. Il guadagno è un drastico risparmio di VRAM (e spesso velocità); il costo è una perdita di precisione controllata, di solito piccola. Capire livelli e formati ti permette di far entrare il modello più grande e migliore che il tuo hardware regge.
Livelli di quantizzazione: il compromesso qualità/dimensione
| Livello | Dimensione vs FP16 | Qualità | Usa quando |
|---|---|---|---|
| FP16 | 1× (full) | Riferimento | la VRAM non è un vincolo |
| 8-bit | ~0.5× | Quasi lossless | qualità critica, hai VRAM |
| 4-bit | ~0.25× | Molto buona | il punto ideale di default |
| 3-bit | ~0.19× | Perdita percepibile | per entrare in poca VRAM |
| 2-bit | ~0.13× | Perdita significativa | solo come ultima risorsa |
I tre formati
- GGUF — il formato di llama.cpp. Gira su CPU, Apple Silicon e CPU+GPU misti, ed è ciò che usano Ollama e LM Studio. Il più flessibile per locale/desktop; non il più veloce per serving GPU puro ad alta concorrenza.
- GPTQ — quantizzazione 4-bit orientata GPU, ampiamente supportata da vLLM/TGI. Inferenza GPU pura veloce; uno standard consolidato e ben strumentato.
- AWQ — quantizzazione activation-aware che spesso preserva la qualità un po' meglio di GPTQ a parità di bit, con inferenza GPU veloce. Sempre più il default per il serving.
Come scegliere
- Mac / CPU / desktop, setup facile → GGUF (Ollama, LM Studio).
- Serving GPU in produzione, molti utenti → AWQ (o GPTQ) su vLLM/TGI.
- La qualità conta di più e hai VRAM → 8-bit.
- Default per la maggior parte dell'uso locale → un buon quant 4-bit (Q4_K_M in GGUF, o AWQ 4-bit).