GLM-4.7-Flash: calo di performance con contesti ampi?

Calo di performance di GLM-4.7-Flash con contesti estesi

Un utente ha riscontrato un calo di performance nel modello GLM-4.7-Flash all'aumentare della lunghezza del contesto. I test sono stati eseguiti su un sistema dotato di tre GPU NVIDIA GeForce RTX 3090, ciascuna con compute capability 8.6 e VMM attivo.

Benchmark e risultati

I benchmark eseguiti con llama-bench mostrano una diminuzione significativa dei token al secondo (t/s) all'aumentare della dimensione del contesto. Ad esempio, con un prompt di 200 token, la velocità di elaborazione iniziale è di circa 1985 t/s, ma scende a circa 350 t/s con un contesto di 50000 token. Questo suggerisce che l'elaborazione di contesti più lunghi introduce un overhead significativo.

Analisi del consumo di risorse

L'analisi del consumo di risorse durante l'utilizzo reale del modello con un contesto di 200000 token ha evidenziato un tempo di valutazione del prompt di 10238.44 ms per 3136 token (circa 306.30 token al secondo) e un tempo di valutazione di 11570.90 ms per 355 token (circa 30.68 token al secondo).

GLM-4.7-Flash: calo di performance con contesti ampi?

Calo di performance di GLM-4.7-Flash con contesti estesi

Benchmark e risultati

Analisi del consumo di risorse

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

GLM-4.7-Flash: benchmark da capogiro su H200 e RTX 6000 Ada

GLM-4.7-Flash: il modello di Z.ai per inferenza locale

Test sul campo di GLM 4.7 Flash Q6 con RTX 5090

👥 Unisciti a 160+ appassionati di AI