I modelli linguistici di grandi dimensioni (LLM) basati su architetture Mixture of Experts (MoE) offrono prestazioni elevate, ma le loro dimensioni rappresentano una sfida per l'implementazione in ambienti con risorse limitate.

KBVQ-MoE: Un Nuovo Approccio alla Quantization

KBVQ-MoE รจ un framework che mira a migliorare la quantization a basso bit per LLM basati su MoE. Affronta due problemi principali:

  1. Ridondanza tra esperti: KBVQ-MoE utilizza una trasformazione di Karhunen-Loeve (KLT) guidata dalla decomposizione ai valori singolari (SVD) per estrarre e condividere i componenti di peso dominanti tra gli esperti, eliminando le rappresentazioni ridondanti.
  2. Distorsione cumulativa: La quantization vettoriale viene applicata solo alle rappresentazioni specifiche dell'esperto (non ridondanti) e le uscite quantizzate vengono corrette tramite compensazione affine a livello di canale.

Risultati Sperimentali

I risultati sperimentali su vari LLM MoE dimostrano che KBVQ-MoE preserva l'accuratezza in modo significativamente migliore rispetto ai metodi di quantization esistenti. Ad esempio, la quantization a 3 bit di Qwen1.5-MoE-A2.7B raggiunge una precisione media del 67,99%, quasi identica alla linea di base FP16 del 68,07%. Questo evidenzia il potenziale di KBVQ-MoE per un'implementazione efficiente su dispositivi edge e altre piattaforme con risorse limitate.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.