Calo di performance di GLM-4.7-Flash con contesti estesi

Un utente ha riscontrato un calo di performance nel modello GLM-4.7-Flash all'aumentare della lunghezza del contesto. I test sono stati eseguiti su un sistema dotato di tre GPU NVIDIA GeForce RTX 3090, ciascuna con compute capability 8.6 e VMM attivo.

Benchmark e risultati

I benchmark eseguiti con llama-bench mostrano una diminuzione significativa dei token al secondo (t/s) all'aumentare della dimensione del contesto. Ad esempio, con un prompt di 200 token, la velocitร  di elaborazione iniziale รจ di circa 1985 t/s, ma scende a circa 350 t/s con un contesto di 50000 token. Questo suggerisce che l'elaborazione di contesti piรน lunghi introduce un overhead significativo.

Analisi del consumo di risorse

L'analisi del consumo di risorse durante l'utilizzo reale del modello con un contesto di 200000 token ha evidenziato un tempo di valutazione del prompt di 10238.44 ms per 3136 token (circa 306.30 token al secondo) e un tempo di valutazione di 11570.90 ms per 355 token (circa 30.68 token al secondo).