Quantization del KV-cache per LLM: uno studio compara FP8 e TurboQuant
Un recente studio ha esaminato diverse tecniche di quantization per il KV-cache degli LLM, confrontando FP8 e le varianti di TurboQuant. I risultati indicano che FP8 offre un raddoppio della capacità del KV-cache con minima perdita di accuratezza e buone performance. Le varianti di TurboQuant mostrano compromessi variabili, con 4bit-nc potenzialmente utile per deployment edge con forti vincoli di memoria, mentre le opzioni più aggressive compromettono significativamente accuratezza e throughput.