Inference accelerata per modelli Mixture-of-Experts tramite Speculating Experts
Un nuovo approccio, denominato Speculating Experts, promette di accelerare l'inference per i modelli Mixture-of-Experts (MoE) riducendo i colli di bottiglia dovuti al trasferimento di dati tra CPU e GPU. La tecnica prevede quali esperti saranno necessari in futuro, sovrapponendo i trasferimenti di memoria ai calcoli e ottenendo una riduzione fino al 14% nel tempo per token di output.