TurboQuant-v3: compressione dei pesi per inference LLM accelerata

Google ha rilasciato TurboQuant-v3, una nuova tecnica di compressione progettata per ridurre l'impronta di memoria dei pesi dei modelli linguistici di grandi dimensioni (LLM). Questo approccio si concentra sulla compressione dei pesi del modello, a differenza delle precedenti iterazioni di TurboQuant che miravano principalmente alla cache KV.

TurboQuant-v3 utilizza una combinazione di quantization INT4 a livello di gruppo, scaling AWQ, gestione di outlier FP16 e correzione SVD opzionale. L'obiettivo รจ ridurre significativamente l'utilizzo di VRAM, consentendo l'esecuzione di modelli piรน grandi su hardware con risorse limitate, come le GPU consumer.

I vantaggi dichiarati includono una riduzione della memoria di circa 4 volte e un aumento della velocitร  di inference di 2-3 volte grazie a kernel custom. La tecnica รจ pensata per essere implementata facilmente, senza richiedere un ulteriore training del modello.

Per chi valuta deployment on-premise, esistono trade-off tra performance, TCO e requisiti di compliance. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.