Benchmark di GLM-4.7-Flash: prestazioni elevate su diverse GPU
Nuovi benchmark del modello GLM-4.7-Flash evidenziano le sue capacitร su diverse configurazioni hardware. I test, eseguiti con vLLM e llama.cpp, mostrano risultati impressionanti sia su GPU di fascia alta che su soluzioni piรน accessibili.
Su una singola GPU H200 SXM, GLM-4.7-Flash ha raggiunto un picco di 4.398 token al secondo (tok/s) senza limiti di concorrenza. In scenari con 32 utenti concorrenti, la velocitร di generazione si รจ attestata a 2.267 tok/s, con un tempo al primo token (TTFT) di 85ms.
Sulla GPU RTX 6000 Ada (48GB), utilizzando la quantizzazione dinamica Unsloth e llama.cpp con un contesto di 16K, il modello ha generato 112 tok/s con quantizzazione Q4_K_XL. Le prestazioni rimangono elevate anche con schemi di quantizzazione diversi, come Q6_K_XL (100 tok/s) e Q8_K_XL (91 tok/s).
Questi risultati suggeriscono che GLM-4.7-Flash รจ un modello versatile, capace di offrire buone prestazioni in diversi contesti, dall'inferenza ad alta velocitร su server con GPU dedicate all'utilizzo su workstation con GPU di fascia consumer.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!