I modelli Mixture-of-Experts (MoE) sono diventati una soluzione popolare per scalare i modelli linguistici di grandi dimensioni (LLM), mantenendo attivazioni sparse e riducendo il calcolo per token.

Tuttavia, in scenari di inference con memoria limitata, i pesi degli esperti devono essere scaricati sulla CPU, creando un collo di bottiglia a causa dei trasferimenti CPU-GPU durante la decodifica. Un nuovo studio propone uno schema di precaricamento degli esperti che sfrutta le rappresentazioni interne del modello calcolate per prevedere gli esperti futuri, consentendo di sovrapporre i trasferimenti di memoria al calcolo.

Speculating Experts: Inference piรน efficiente

La tecnica, denominata Speculating Experts, dimostra che gli esperti futuri possono essere previsti in modo affidabile da queste rappresentazioni interne. L'esecuzione di esperti ipotizzati generalmente mantiene l'accuratezza del task a valle, preservando una sovrapposizione calcolo-memoria piรน efficace ed eliminando la necessitร  di recuperare nuovamente gli esperti selezionati dal router.

Integrato in un motore di inference ottimizzato, questo approccio raggiunge una riduzione fino al 14% nel tempo per token di output (TPOT) rispetto al caricamento on-demand degli esperti dalla memoria della CPU. Per i modelli MoE in cui la sola esecuzione speculativa produce un'accuratezza non ottimale, vengono esaminati stimatori leggeri che migliorano i tassi di successo della previsione degli esperti, riducendo cosรฌ il degrado delle prestazioni.

Il codice del progetto รจ disponibile open-source su GitHub.