Benchmark di GLM-4.7-Flash: prestazioni elevate su diverse GPU

Nuovi benchmark del modello GLM-4.7-Flash evidenziano le sue capacitร  su diverse configurazioni hardware. I test, eseguiti con vLLM e llama.cpp, mostrano risultati impressionanti sia su GPU di fascia alta che su soluzioni piรน accessibili.

Su una singola GPU H200 SXM, GLM-4.7-Flash ha raggiunto un picco di 4.398 token al secondo (tok/s) senza limiti di concorrenza. In scenari con 32 utenti concorrenti, la velocitร  di generazione si รจ attestata a 2.267 tok/s, con un tempo al primo token (TTFT) di 85ms.

Sulla GPU RTX 6000 Ada (48GB), utilizzando la quantizzazione dinamica Unsloth e llama.cpp con un contesto di 16K, il modello ha generato 112 tok/s con quantizzazione Q4_K_XL. Le prestazioni rimangono elevate anche con schemi di quantizzazione diversi, come Q6_K_XL (100 tok/s) e Q8_K_XL (91 tok/s).

Questi risultati suggeriscono che GLM-4.7-Flash รจ un modello versatile, capace di offrire buone prestazioni in diversi contesti, dall'inferenza ad alta velocitร  su server con GPU dedicate all'utilizzo su workstation con GPU di fascia consumer.