Unsloth AI ha presentato nuove ottimizzazioni per l'addestramento di modelli Mixture of Experts (MoE), ottenendo un incremento di velocità fino a 12 volte e una riduzione del consumo di VRAM superiore al 35%. Queste ottimizzazioni sono state realizzate tramite kernel Triton personalizzati e ottimizzazioni matematiche, senza compromettere l'accuratezza dei modelli.
Dettagli dell'implementazione
Le ottimizzazioni di Unsloth supportano diverse architetture MoE, tra cui gpt-oss, Qwen3 (30B, 235B, VL, Coder), DeepSeek R1/V3 e GLM (4.6-Air, 4.7, Flash). Un modello gpt-oss-20b può essere ottimizzato con soli 12.8GB di VRAM, mentre Qwen3-30B-A3B (con LoRA a 16-bit) richiede 63GB.
I kernel di Unsloth sono compatibili sia con GPU per data center (B200, H100) che con GPU consumer, incluse le meno recenti RTX 3090. L'efficacia delle ottimizzazioni aumenta con la dimensione del modello e la lunghezza del contesto.
Integrazione e prestazioni
In collaborazione con Hugging Face, Unsloth ha standardizzato l'addestramento MoE utilizzando la funzione torch._grouped_mm di PyTorch. Le ottimizzazioni di Unsloth, combinate con i miglioramenti apportati a Transformers v5, offrono un ulteriore incremento di velocità e una riduzione del consumo di VRAM rispetto alle versioni precedenti.
Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!