Qwen3-Coder: prestazioni migliorate su RTX 5090 con llama.cpp

Un utente ha riscontrato un incremento notevole nelle prestazioni del modello Qwen3-Coder-Next-Q4_K_S, raggiungendo circa 26 token/secondo su una GPU RTX 5090, grazie all'utilizzo di llama.cpp.

Dettagli della configurazione

La configurazione hardware utilizzata comprendeva:

GPU: RTX 5090
CPU: 9950X3D
RAM: 96GB
Driver: 591.86 / CUDA 13.1
llama.cpp: b7951
Modello: Unsloth GGUF Qwen3-Coder-Next-Q4_K_S.gguf

Ottimizzazioni implementate

L'incremento di prestazioni è stato ottenuto tramite i seguenti parametri:

-c 32768 -ngl 999 --flash-attn auto -ctk q8_0 -ctv q8_0 -ot ".ffn_.*_exps.=CPU" -np 1

I miglioramenti principali derivano dallo scarico dei tensori MoE expert (i .ffn_.*_exps ) sulla CPU, riducendo la pressione sulla VRAM, e dalla quantization della cache KV (ctk/ctv q8_0), particolarmente utile con un contesto di 32k. L'utente avverte che lo scarico dei tensori MoE potrebbe non essere vantaggioso per modelli più piccoli, richiedendo quindi una valutazione specifica per ogni configurazione.

Qwen3-Coder: prestazioni migliorate su RTX 5090 con llama.cpp

Dettagli della configurazione

Ottimizzazioni implementate

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Qwen3.5 122B su RTX 4090: ottimizzazione e performance

Llama.cpp: "--fit" accelera Qwen3-Coder-Next su RTX 3090

Qwen3 Coder: performance migliorata con Llama.cpp

👥 Unisciti a 160+ appassionati di AI