Adaptive-K: routing efficiente per modelli MoE

รˆ stato sviluppato un nuovo sistema di routing, denominato Adaptive-K, che punta a ridurre il carico computazionale dei modelli Mixture of Experts (MoE). I primi risultati indicano un risparmio tra il 30% e il 52% su modelli come Mixtral, Qwen e OLMoE.

Risorse e implementazione

Il codice sorgente del progetto รจ disponibile su GitHub. รˆ inoltre possibile testare una demo live su Hugging Face. I tecnici NVIDIA stanno valutando l'integrazione di Adaptive-K in TensorRT-LLM, come evidenziato dalla relativa pull request.

I modelli MoE, come suggerisce il nome, utilizzano una combinazione di modelli piรน piccoli (gli "esperti") per gestire diversi aspetti di un problema complesso. Il routing, in questo contesto, รจ il processo di assegnazione di specifici input agli esperti piรน adatti, con l'obiettivo di ottimizzare sia la precisione che l'efficienza computazionale.