Inference efficiente di MoE su dispositivi edge

I modelli Mixture-of-Experts (MoE) offrono prestazioni scalabili, ma presentano sfide significative in termini di requisiti di memoria, specialmente su dispositivi edge con risorse limitate. Le strategie di offloading esistenti spesso soffrono di colli di bottiglia I/O a causa della natura dinamica e a bassa informazione dell'attivazione degli esperti autoregressivi.

MoE-SpAc riutilizza la Speculative Decoding (SD) come sensore predittivo per la gestione della memoria. Il framework integra uno Speculative Utility Estimator per tracciare la domanda di esperti, un Heterogeneous Workload Balancer per partizionare dinamicamente il calcolo tramite ottimizzazione intera online e un Asynchronous Execution Engine per unificare il precaricamento e lo scaricamento nella stessa area di utilità.

I risultati sperimentali su sette benchmark dimostrano che MoE-SpAc raggiunge un miglioramento del 42% nel TPS rispetto alla baseline SOTA basata su SD e una velocizzazione media di 4.04x rispetto a tutte le baseline standard. Il codice è disponibile su GitHub.