Qwen3.5 è ora disponibile in una versione ottimizzata per l'inference su hardware NVIDIA, grazie alla quantization NVFP4 tramite Model Optimizer.
Dettagli del Modello
- Checkpoint: ~224GB
- Parametri attivi: 17 miliardi
- Licenza: Apache 2.0
Il modello si basa su un'architettura Mixture of Experts (MoE) con 512 esperti, di cui 10 attivi per token. Supporta un contesto nativo di 262K token, estendibile a oltre 1 milione, ed è multimodale (testo, immagini, video) con supporto per 201 lingue.
Installazione
Per l'installazione è necessario SGLang da una branch specifica:
git clone -b vz/qwen3-5 git@github.com:bzhng-development/sglang.git
cd sglang
uv pip install -e "python"
uv pip install transformers==5.2.0
Lancio
Esempio di lancio su B200/B300 (TP=4):
python3 -m sglang.launch_server \
--model-path vincentzed-hf/Qwen3.5-397B-A17B-NVFP4 \
--quantization modelopt_fp4 \
--tp 4 \
--context-length 262144 \
--reasoning-parser qwen3
Per RTX PRO 6000s, impostare --tp 8 per evitare errori di memoria insufficiente (OOM).
Decodifica Speculativa (Sperimentale)
Qwen3.5 integra un meccanismo di Multi-Token Prediction. Può essere utile con pochi utenti concorrenti:
SGLANG_ENABLE_SPEC_V2=1 python3 -m sglang.launch_server \
--model-path vincentzed-hf/Qwen3.5-397B-A17B-NVFP4 \
--quantization modelopt_fp4 \
--tp 8 \
--context-length 262144 \
--reasoning-parser qwen3 \
--speculative-algo NEXTN \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4
Requisiti Hardware
| Config | GPUs | VRAM/GPU | Throughput |
|---|---|---|---|
| B300 TP=4 | 4x B300 | 288 GB | ~120 tok/s |
| B200 TP=4 | 4x B200 | 192 GB | — |
| RTX PRO 6000 TP=8 | 8x RTX PRO 6000 | 96 GB | — |
Il contesto predefinito è di 262K token. In caso di errori OOM, ridurre il valore, cercando di mantenerlo almeno a 128K per preservare la qualità del ragionamento.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!