Inference accelerata per modelli Mixture-of-Experts tramite Speculating Experts

I modelli Mixture-of-Experts (MoE) sono diventati una soluzione popolare per scalare i modelli linguistici di grandi dimensioni (LLM), mantenendo attivazioni sparse e riducendo il calcolo per token.

Tuttavia, in scenari di inference con memoria limitata, i pesi degli esperti devono essere scaricati sulla CPU, creando un collo di bottiglia a causa dei trasferimenti CPU-GPU durante la decodifica. Un nuovo studio propone uno schema di precaricamento degli esperti che sfrutta le rappresentazioni interne del modello calcolate per prevedere gli esperti futuri, consentendo di sovrapporre i trasferimenti di memoria al calcolo.

Speculating Experts: Inference più efficiente

La tecnica, denominata Speculating Experts, dimostra che gli esperti futuri possono essere previsti in modo affidabile da queste rappresentazioni interne. L'esecuzione di esperti ipotizzati generalmente mantiene l'accuratezza del task a valle, preservando una sovrapposizione calcolo-memoria più efficace ed eliminando la necessità di recuperare nuovamente gli esperti selezionati dal router.

Integrato in un motore di inference ottimizzato, questo approccio raggiunge una riduzione fino al 14% nel tempo per token di output (TPOT) rispetto al caricamento on-demand degli esperti dalla memoria della CPU. Per i modelli MoE in cui la sola esecuzione speculativa produce un'accuratezza non ottimale, vengono esaminati stimatori leggeri che migliorano i tassi di successo della previsione degli esperti, riducendo così il degrado delle prestazioni.

Il codice del progetto è disponibile open-source su GitHub.

Inference accelerata per modelli Mixture-of-Experts tramite Speculating Experts

Speculating Experts: Inference più efficiente

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Allineamento LLM: intervento selettivo per inference efficiente

Inference LLM: decodifica speculativa per ottimizzare il throughput

ChatJimmy: inference LLM a 15.000 token/s su silicio dedicato?