Benchmark di GLM-4.7-Flash: prestazioni elevate su diverse GPU
Nuovi benchmark del modello GLM-4.7-Flash evidenziano le sue capacità su diverse configurazioni hardware. I test, eseguiti con vLLM e llama.cpp, mostrano risultati impressionanti sia su GPU di fascia alta che su soluzioni più accessibili.
Su una singola GPU H200 SXM, GLM-4.7-Flash ha raggiunto un picco di 4.398 token al secondo (tok/s) senza limiti di concorrenza. In scenari con 32 utenti concorrenti, la velocità di generazione si è attestata a 2.267 tok/s, con un tempo al primo token (TTFT) di 85ms.
Sulla GPU RTX 6000 Ada (48GB), utilizzando la quantizzazione dinamica Unsloth e llama.cpp con un contesto di 16K, il modello ha generato 112 tok/s con quantizzazione Q4_K_XL. Le prestazioni rimangono elevate anche con schemi di quantizzazione diversi, come Q6_K_XL (100 tok/s) e Q8_K_XL (91 tok/s).
Questi risultati suggeriscono che GLM-4.7-Flash è un modello versatile, capace di offrire buone prestazioni in diversi contesti, dall'inferenza ad alta velocità su server con GPU dedicate all'utilizzo su workstation con GPU di fascia consumer.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!