Qwen 3.5 35B MoE: Performance su RTX 5060 Ti
Un utente ha riportato risultati di performance impressionanti per il modello linguistico Qwen 3.5 35B MoE, eseguito su una scheda grafica NVIDIA GeForce RTX 5060 Ti con 16GB di VRAM. Il test ha utilizzato un contesto di 100.000 token.
Dettagli della configurazione
- Modello: Qwen 3.5 35B MoE
- GPU: NVIDIA GeForce RTX 5060 Ti (16GB VRAM)
- CPU: AMD Ryzen 7 9700X
- Backend: CUDA e Vulkan
- Lunghezza contesto: 100.000 token
Risultati
I test hanno mostrato una velocità di generazione di circa 40 token al secondo (tps) con entrambi i backend CUDA e Vulkan. In particolare, con CUDA è stata raggiunta una velocità di 44.32 tps, mentre con Vulkan 41.35 tps. Durante l'elaborazione del prompt (fill) con un testo di 99961 token, la velocità ha raggiunto i 1154.31 tps.
Comando llama.cpp utilizzato
llama-server.exe -m "/Qwen3.5-35B-A3B-MXFP4_MOE.gguf" --port 6789 --ctx-size 131072 -n 32768 --flash-attn on -ngl 40 --n-cpu-moe 24 -b 2048 -ub 2048 -t 8 --kv-offload --cont-batching --temp 1.0 --top-p 0.95 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0
Questi risultati suggeriscono che l'inference di modelli linguistici di grandi dimensioni sta diventando sempre più accessibile su hardware consumer. Per chi valuta deployment on-premise, esistono trade-off da considerare, e AI-RADAR offre framework analitici su /llm-onpremise per la valutazione.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!