Cosa fa la quantizzazione di un LLM?

Memorizza i pesi del modello in meno bit (es. 4 invece di 16), riducendo la VRAM di circa 4x con piccola perdita di qualità, così modelli grandi entrano su GPU consumer.

La quantizzazione a 4-bit peggiora la qualità?

Per la maggior parte dei task, i metodi 4-bit moderni perdono pochissimo. L'8-bit è quasi lossless; sotto i 4-bit (3-bit, 2-bit) il degrado diventa percepibile, soprattutto nel ragionamento.

GGUF, GPTQ o AWQ — quale usare?

GGUF per CPU/Mac o CPU-GPU misto via llama.cpp/Ollama; GPTQ o AWQ per inferenza pura su GPU veloce via vLLM/TGI. AWQ spesso supera GPTQ in qualità a parità di bit.

Quantizzazione LLM spiegata (2026): GGUF vs GPTQ vs AWQ

I pesi di un modello sono miliardi di numeri. Per default ciascuno è in 16 bit (FP16); la quantizzazione li memorizza in meno — 8, 4, persino 2 bit — mappando l'intervallo di valori su un insieme più piccolo. Il guadagno è un drastico risparmio di VRAM (e spesso velocità); il costo è una perdita di precisione controllata, di solito piccola. Capire livelli e formati ti permette di far entrare il modello più grande e migliore che il tuo hardware regge.

Livelli di quantizzazione: il compromesso qualità/dimensione

Livello	Dimensione vs FP16	Qualità	Usa quando
FP16	1× (full)	Riferimento	la VRAM non è un vincolo
8-bit	~0.5×	Quasi lossless	qualità critica, hai VRAM
4-bit	~0.25×	Molto buona	il punto ideale di default
3-bit	~0.19×	Perdita percepibile	per entrare in poca VRAM
2-bit	~0.13×	Perdita significativa	solo come ultima risorsa

I tre formati

GGUF — il formato di llama.cpp. Gira su CPU, Apple Silicon e CPU+GPU misti, ed è ciò che usano Ollama e LM Studio. Il più flessibile per locale/desktop; non il più veloce per serving GPU puro ad alta concorrenza.
GPTQ — quantizzazione 4-bit orientata GPU, ampiamente supportata da vLLM/TGI. Inferenza GPU pura veloce; uno standard consolidato e ben strumentato.
AWQ — quantizzazione activation-aware che spesso preserva la qualità un po' meglio di GPTQ a parità di bit, con inferenza GPU veloce. Sempre più il default per il serving.

Come scegliere

Mac / CPU / desktop, setup facile → GGUF (Ollama, LM Studio).
Serving GPU in produzione, molti utenti → AWQ (o GPTQ) su vLLM/TGI.
La qualità conta di più e hai VRAM → 8-bit.
Default per la maggior parte dell'uso locale → un buon quant 4-bit (Q4_K_M in GGUF, o AWQ 4-bit).