Qwen 3.5 35B MoE: 40+ token/s su RTX 5060 Ti con contesto 100k

Qwen 3.5 35B MoE: Performance su RTX 5060 Ti

Un utente ha riportato risultati di performance impressionanti per il modello linguistico Qwen 3.5 35B MoE, eseguito su una scheda grafica NVIDIA GeForce RTX 5060 Ti con 16GB di VRAM. Il test ha utilizzato un contesto di 100.000 token.

Dettagli della configurazione

Modello: Qwen 3.5 35B MoE
GPU: NVIDIA GeForce RTX 5060 Ti (16GB VRAM)
CPU: AMD Ryzen 7 9700X
Backend: CUDA e Vulkan
Lunghezza contesto: 100.000 token

Risultati

I test hanno mostrato una velocità di generazione di circa 40 token al secondo (tps) con entrambi i backend CUDA e Vulkan. In particolare, con CUDA è stata raggiunta una velocità di 44.32 tps, mentre con Vulkan 41.35 tps. Durante l'elaborazione del prompt (fill) con un testo di 99961 token, la velocità ha raggiunto i 1154.31 tps.

Comando llama.cpp utilizzato

llama-server.exe -m "/Qwen3.5-35B-A3B-MXFP4_MOE.gguf" --port 6789 --ctx-size 131072 -n 32768 --flash-attn on -ngl 40 --n-cpu-moe 24 -b 2048 -ub 2048 -t 8 --kv-offload --cont-batching --temp 1.0 --top-p 0.95 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0

Questi risultati suggeriscono che l'inference di modelli linguistici di grandi dimensioni sta diventando sempre più accessibile su hardware consumer. Per chi valuta deployment on-premise, esistono trade-off da considerare, e AI-RADAR offre framework analitici su /llm-onpremise per la valutazione.

Qwen 3.5 35B MoE: 40+ token/s su RTX 5060 Ti con contesto 100k

Qwen 3.5 35B MoE: Performance su RTX 5060 Ti

Dettagli della configurazione

Risultati

Comando llama.cpp utilizzato

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Qwen3 Coder: performance migliorata con Llama.cpp

Nvidia RTX 5050: 9GB GDDR7 su bus a 96-bit in arrivo?

Nvidia RTX 5060 Ti 8GB: unica GPU di serie 50 al prezzo di listino

👥 Unisciti a 160+ appassionati di AI