Qwen3.5 NVFP4: Inference Quantizzata su NVIDIA Blackwell

Qwen3.5 è ora disponibile in una versione ottimizzata per l'inference su hardware NVIDIA, grazie alla quantization NVFP4 tramite Model Optimizer.

Dettagli del Modello

Checkpoint: ~224GB
Parametri attivi: 17 miliardi
Licenza: Apache 2.0

Il modello si basa su un'architettura Mixture of Experts (MoE) con 512 esperti, di cui 10 attivi per token. Supporta un contesto nativo di 262K token, estendibile a oltre 1 milione, ed è multimodale (testo, immagini, video) con supporto per 201 lingue.

Installazione

Per l'installazione è necessario SGLang da una branch specifica:

git clone -b vz/qwen3-5 git@github.com:bzhng-development/sglang.git
cd sglang
uv pip install -e "python"
uv pip install transformers==5.2.0

Lancio

Esempio di lancio su B200/B300 (TP=4):

python3 -m sglang.launch_server \
--model-path vincentzed-hf/Qwen3.5-397B-A17B-NVFP4 \
--quantization modelopt_fp4 \
--tp 4 \
--context-length 262144 \
--reasoning-parser qwen3

Per RTX PRO 6000s, impostare --tp 8 per evitare errori di memoria insufficiente (OOM).

Decodifica Speculativa (Sperimentale)

Qwen3.5 integra un meccanismo di Multi-Token Prediction. Può essere utile con pochi utenti concorrenti:

SGLANG_ENABLE_SPEC_V2=1 python3 -m sglang.launch_server \
--model-path vincentzed-hf/Qwen3.5-397B-A17B-NVFP4 \
--quantization modelopt_fp4 \
--tp 8 \
--context-length 262144 \
--reasoning-parser qwen3 \
--speculative-algo NEXTN \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4

Requisiti Hardware

Config	GPUs	VRAM/GPU	Throughput
B300 TP=4	4x B300	288 GB	~120 tok/s
B200 TP=4	4x B200	192 GB	—
RTX PRO 6000 TP=8	8x RTX PRO 6000	96 GB	—

Il contesto predefinito è di 262K token. In caso di errori OOM, ridurre il valore, cercando di mantenerlo almeno a 128K per preservare la qualità del ragionamento.

Qwen3.5 NVFP4: Inference Quantizzata su NVIDIA Blackwell

Dettagli del Modello

Installazione

Lancio

Decodifica Speculativa (Sperimentale)

Requisiti Hardware

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Qwen3-Coder-Next: Quantization NVFP4 disponibile (45GB)

GPT-OSS 120B: modello open-source non censurato per inference locale

Qwen3.5-27b: analisi comparativa tra quantization a 8 e 16 bit

👥 Unisciti a 160+ appassionati di AI