I pesi di un modello sono miliardi di numeri. Per default ciascuno è in 16 bit (FP16); la quantizzazione li memorizza in meno — 8, 4, persino 2 bit — mappando l'intervallo di valori su un insieme più piccolo. Il guadagno è un drastico risparmio di VRAM (e spesso velocità); il costo è una perdita di precisione controllata, di solito piccola. Capire livelli e formati ti permette di far entrare il modello più grande e migliore che il tuo hardware regge.

Livelli di quantizzazione: il compromesso qualità/dimensione

LivelloDimensione vs FP16QualitàUsa quando
FP161× (full)Riferimentola VRAM non è un vincolo
8-bit~0.5×Quasi losslessqualità critica, hai VRAM
4-bit~0.25×Molto buonail punto ideale di default
3-bit~0.19×Perdita percepibileper entrare in poca VRAM
2-bit~0.13×Perdita significativasolo come ultima risorsa

I tre formati

  • GGUF — il formato di llama.cpp. Gira su CPU, Apple Silicon e CPU+GPU misti, ed è ciò che usano Ollama e LM Studio. Il più flessibile per locale/desktop; non il più veloce per serving GPU puro ad alta concorrenza.
  • GPTQ — quantizzazione 4-bit orientata GPU, ampiamente supportata da vLLM/TGI. Inferenza GPU pura veloce; uno standard consolidato e ben strumentato.
  • AWQ — quantizzazione activation-aware che spesso preserva la qualità un po' meglio di GPTQ a parità di bit, con inferenza GPU veloce. Sempre più il default per il serving.

Come scegliere

  • Mac / CPU / desktop, setup facile → GGUF (Ollama, LM Studio).
  • Serving GPU in produzione, molti utenti → AWQ (o GPTQ) su vLLM/TGI.
  • La qualità conta di più e hai VRAM → 8-bit.
  • Default per la maggior parte dell'uso locale → un buon quant 4-bit (Q4_K_M in GGUF, o AWQ 4-bit).