Una versione quantizzata di Qwen3-Coder-Next è stata rilasciata in formato NVFP4. Questa versione riduce significativamente le dimensioni del modello da 149GB a 45GB.
Dettagli
- Modello: Qwen3-Coder-Next
- Quantization: NVFP4
- Dimensione: 45GB
- Dataset di calibrazione: ultrachat_200k
- Perdita di accuratezza: 1.63% in MMLU Pro+
La quantization è una tecnica fondamentale per ridurre l'impronta di memoria dei modelli linguistici di grandi dimensioni (LLM), rendendoli più accessibili per l'inference su hardware con risorse limitate. Per chi valuta deployment on-premise, esistono trade-off tra accuratezza e requisiti hardware che AI-RADAR aiuta a valutare.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!