Qwen3.5 è ora disponibile in una versione ottimizzata per l'inference su hardware NVIDIA, grazie alla quantization NVFP4 tramite Model Optimizer.

Dettagli del Modello

  • Checkpoint: ~224GB
  • Parametri attivi: 17 miliardi
  • Licenza: Apache 2.0

Il modello si basa su un'architettura Mixture of Experts (MoE) con 512 esperti, di cui 10 attivi per token. Supporta un contesto nativo di 262K token, estendibile a oltre 1 milione, ed è multimodale (testo, immagini, video) con supporto per 201 lingue.

Installazione

Per l'installazione è necessario SGLang da una branch specifica:

git clone -b vz/qwen3-5 git@github.com:bzhng-development/sglang.git
cd sglang
uv pip install -e "python"
uv pip install transformers==5.2.0

Lancio

Esempio di lancio su B200/B300 (TP=4):

python3 -m sglang.launch_server \
--model-path vincentzed-hf/Qwen3.5-397B-A17B-NVFP4 \
--quantization modelopt_fp4 \
--tp 4 \
--context-length 262144 \
--reasoning-parser qwen3

Per RTX PRO 6000s, impostare --tp 8 per evitare errori di memoria insufficiente (OOM).

Decodifica Speculativa (Sperimentale)

Qwen3.5 integra un meccanismo di Multi-Token Prediction. Può essere utile con pochi utenti concorrenti:

SGLANG_ENABLE_SPEC_V2=1 python3 -m sglang.launch_server \
--model-path vincentzed-hf/Qwen3.5-397B-A17B-NVFP4 \
--quantization modelopt_fp4 \
--tp 8 \
--context-length 262144 \
--reasoning-parser qwen3 \
--speculative-algo NEXTN \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4

Requisiti Hardware

Config GPUs VRAM/GPU Throughput
B300 TP=4 4x B300 288 GB ~120 tok/s
B200 TP=4 4x B200 192 GB
RTX PRO 6000 TP=8 8x RTX PRO 6000 96 GB

Il contesto predefinito è di 262K token. In caso di errori OOM, ridurre il valore, cercando di mantenerlo almeno a 128K per preservare la qualità del ragionamento.