Un utente ha segnalato un notevole incremento di performance per il modello Qwen3 Coder Next dopo aver aggiornato Llama.cpp. I test sono stati eseguiti su una configurazione hardware dotata di GPU NVIDIA RTX, evidenziando un aumento dei token generati al secondo.

Dettagli della configurazione

  • GPU 1: NVIDIA RTX 6000 Ada Generation (compute capability 8.9)
  • GPU 2: NVIDIA RTX PRO 6000 Blackwell Workstation Edition (compute capability 12.0)

Risultati dei benchmark

I benchmark eseguiti con llama-bench mostrano un incremento nel numero di token al secondo (t/s) generati. Ad esempio, in modalitร  dual-GPU, la velocitร  รจ passata da circa 80 t/s a oltre 110 t/s. Utilizzando solo la RTX PRO, si sono superati i 130 t/s. I risultati specifici variano a seconda dei parametri di test, come evidenziato nelle tabelle di benchmark riportate dall'utente.

Per chi valuta deployment on-premise, esistono trade-off tra performance, costi e requisiti di compliance. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.