Qwen3-Coder-Next: Quantization NVFP4 disponibile (45GB)

Pubblicato il 2026-02-04 07:02 ℹ️ LocalLLaMA 📰 Leggi l'articolo originale →

🏷️ Hardware 🏷️ LLM On-Premise 🏷️ Fine-Tuning 🏷️ DevOps

Qwen3-Coder-Next: Quantization NVFP4 disponibile (45GB)

Una versione quantizzata di Qwen3-Coder-Next è stata rilasciata in formato NVFP4. Questa versione riduce significativamente le dimensioni del modello da 149GB a 45GB.

Dettagli

Modello: Qwen3-Coder-Next
Quantization: NVFP4
Dimensione: 45GB
Dataset di calibrazione: ultrachat_200k
Perdita di accuratezza: 1.63% in MMLU Pro+

La quantization è una tecnica fondamentale per ridurre l'impronta di memoria dei modelli linguistici di grandi dimensioni (LLM), rendendoli più accessibili per l'inference su hardware con risorse limitate. Per chi valuta deployment on-premise, esistono trade-off tra accuratezza e requisiti hardware che AI-RADAR aiuta a valutare.

Takeaway AI-Radar

È disponibile una versione quantizzata di Qwen3-Coder-Next in formato NVFP4, con un peso di 45GB. Il modello è stato calibrato utilizzando il dataset ultrachat_200k, con una perdita di accuratezza dell'1.63% nel benchmark MMLU Pro+.

🤖 Chiedi all'AI di questo argomento

Vuoi approfondire? Leggi l'articolo completo dalla fonte:

📖 VAI ALLA FONTE ORIGINALE

💻 Hai bisogno di infrastruttura GPU cloud?

Per eseguire inferenza LLM, training di modelli o testare configurazioni hardware, dai un'occhiata a questa piattaforma:

🚂

Railway Infrastruttura Cloud

Piattaforma cloud moderna con deployment istantanei. Deploy da GitHub in secondi con HTTPS automatico, database e monitoring. Perfetta per web app, API e servizi di inferenza LLM.

✓ Integrazione GitHub ✓ HTTPS automatico ✓ Prezzi semplici

🔗 Questo è un link affiliato - potremmo ricevere una commissione senza costi aggiuntivi per te.