Una versione quantizzata di Qwen3-Coder-Next è stata rilasciata in formato NVFP4. Questa versione riduce significativamente le dimensioni del modello da 149GB a 45GB.

Dettagli

  • Modello: Qwen3-Coder-Next
  • Quantization: NVFP4
  • Dimensione: 45GB
  • Dataset di calibrazione: ultrachat_200k
  • Perdita di accuratezza: 1.63% in MMLU Pro+

La quantization è una tecnica fondamentale per ridurre l'impronta di memoria dei modelli linguistici di grandi dimensioni (LLM), rendendoli più accessibili per l'inference su hardware con risorse limitate. Per chi valuta deployment on-premise, esistono trade-off tra accuratezza e requisiti hardware che AI-RADAR aiuta a valutare.