TurboQuant per la compressione di modelli LLM

TurboQuant รจ un'implementazione di un algoritmo di quantization sviluppato originariamente per la KV-cache, ora adattato per la compressione dei pesi dei modelli. L'obiettivo รจ ridurre l'impronta di memoria dei modelli linguistici di grandi dimensioni (LLM) senza sacrificare significativamente l'accuratezza.

Dettagli e Benchmark

L'approccio di TurboQuant prevede l'utilizzo di una quantization a 4-bit combinata con residui a 8-bit. Questo permette di ottenere un buon compromesso tra compressione e mantenimento delle performance. I risultati dei benchmark su Qwen3.5-0.8B con WikiText-103 mostrano:

  • Baseline BF16: PPL 14.29, dimensione 1,504 MB
  • Quantization 4+4 bit (con residui): PPL 14.29, dimensione 762 MB
  • Quantization a 4-bit (gruppo=full): PPL 16.23, dimensione 361 MB
  • Quantization a 4-bit (gruppo=128): PPL 16.57, dimensione 381 MB

Come si evince dai dati, la configurazione a 4+4 bit raggiunge una perplexity (PPL) identica alla baseline BF16, dimezzando di fatto la dimensione del modello. Le configurazioni a 4-bit senza residui mostrano un degrado delle performance.

TurboQuant si propone come una soluzione drop-in replacement per il modulo nn.Linear di PyTorch, semplificando l'integrazione in modelli esistenti. Per chi valuta deployment on-premise, esistono trade-off da considerare, come discusso in AI-RADAR su /llm-onpremise.