Un utente ha riscontrato un incremento notevole nelle prestazioni del modello Qwen3-Coder-Next-Q4_K_S, raggiungendo circa 26 token/secondo su una GPU RTX 5090, grazie all'utilizzo di llama.cpp.
Dettagli della configurazione
La configurazione hardware utilizzata comprendeva:
- GPU: RTX 5090
- CPU: 9950X3D
- RAM: 96GB
- Driver: 591.86 / CUDA 13.1
- llama.cpp: b7951
- Modello: Unsloth GGUF Qwen3-Coder-Next-Q4_K_S.gguf
Ottimizzazioni implementate
L'incremento di prestazioni รจ stato ottenuto tramite i seguenti parametri:
-c 32768 -ngl 999 --flash-attn auto -ctk q8_0 -ctv q8_0 -ot ".ffn_.*_exps.=CPU" -np 1
I miglioramenti principali derivano dallo scarico dei tensori MoE expert (i .ffn_.*_exps ) sulla CPU, riducendo la pressione sulla VRAM, e dalla quantization della cache KV (ctk/ctv q8_0), particolarmente utile con un contesto di 32k. L'utente avverte che lo scarico dei tensori MoE potrebbe non essere vantaggioso per modelli piรน piccoli, richiedendo quindi una valutazione specifica per ogni configurazione.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!