RotorQuant: Un'alternativa piรน rapida a TurboQuant

RotorQuant รจ una nuova tecnica di quantization vettoriale che utilizza i rotori di Clifford per ottenere prestazioni superiori rispetto a TurboQuant. I primi risultati mostrano un incremento di velocitร  compreso tra 10 e 19 volte, con una riduzione del numero di parametri pari a 44 volte.

L'idea chiave รจ sostituire la matrice ortogonale casuale dร—d con rotori di Clifford in Cl(3,0). Invece di una moltiplicazione di matrici dense, il vettore viene suddiviso in gruppi di 3 dimensioni e ciascuno viene ruotato con un rotore a 4 parametri. Questo approccio riduce drasticamente il numero di operazioni necessarie.

Risultati e Performance

I test su Qwen2.5-3B-Instruct KV cache mostrano:

  • Similaritร  coseno: 0.990 (vs 0.991 di TurboQuant)
  • 44 volte meno parametri (372 vs 16,399 per d=128)
  • Kernel CUDA fuso: 10-19 volte piรน veloce rispetto a cuBLAS matmul su RTX PRO 4000
  • Metal shader fuso: 9-31 volte piรน veloce su Apple M4
  • Performance perfetta nei test needle-in-haystack

L'implementazione sfrutta kernel fusi che mantengono i dati nei registri, evitando accessi alla memoria e superando le prestazioni di TurboQuant nonostante l'ottimizzazione di quest'ultimo. Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Implicazioni

RotorQuant rappresenta un promettente passo avanti nella quantization vettoriale, offrendo un significativo miglioramento delle prestazioni con un'impronta di memoria ridotta. Questo potrebbe avere un impatto notevole sulle applicazioni di inference LLM, specialmente in contesti con risorse limitate.