Addestramento MoE: 12x più veloce con Unsloth e VRAM ridotta

Unsloth AI ha presentato nuove ottimizzazioni per l'addestramento di modelli Mixture of Experts (MoE), ottenendo un incremento di velocità fino a 12 volte e una riduzione del consumo di VRAM superiore al 35%. Queste ottimizzazioni sono state realizzate tramite kernel Triton personalizzati e ottimizzazioni matematiche, senza compromettere l'accuratezza dei modelli.

Dettagli dell'implementazione

Le ottimizzazioni di Unsloth supportano diverse architetture MoE, tra cui gpt-oss, Qwen3 (30B, 235B, VL, Coder), DeepSeek R1/V3 e GLM (4.6-Air, 4.7, Flash). Un modello gpt-oss-20b può essere ottimizzato con soli 12.8GB di VRAM, mentre Qwen3-30B-A3B (con LoRA a 16-bit) richiede 63GB.

I kernel di Unsloth sono compatibili sia con GPU per data center (B200, H100) che con GPU consumer, incluse le meno recenti RTX 3090. L'efficacia delle ottimizzazioni aumenta con la dimensione del modello e la lunghezza del contesto.

Integrazione e prestazioni

In collaborazione con Hugging Face, Unsloth ha standardizzato l'addestramento MoE utilizzando la funzione torch._grouped_mm di PyTorch. Le ottimizzazioni di Unsloth, combinate con i miglioramenti apportati a Transformers v5, offrono un ulteriore incremento di velocità e una riduzione del consumo di VRAM rispetto alle versioni precedenti.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Addestramento MoE: 12x più veloce con Unsloth e VRAM ridotta

Dettagli dell'implementazione

Integrazione e prestazioni

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

AMD Ryzen AI Max: Incremento di velocità con llama.cpp e ROCm

Qwen 3.5 27B: il modello cinese migliore sotto i 70B per traduzioni

Ottimizzare modelli MoE su CPU: guida a GLM-4 e GPT-OSS