GLM 4.7 e llama.cpp: istruzioni per l'uso

Un utente ha condiviso una guida per far funzionare correttamente il modello GLM 4.7 su llama.cpp, sfruttando la Flash Attention per accelerare le prestazioni. La configurazione รจ stata testata su una GPU RTX 6000 Blackwell.

Configurazione

Per abilitare Flash Attention su CUDA, รจ necessario utilizzare questa branch Git:

https://github.com/am17an/llama.cpp/tree/glm_4.7_headsize

Inoltre, รจ necessario aggiungere la seguente opzione:

--override-kv deepseek2.expert_gating_func=int:2

Performance

Con questa configurazione, si raggiungono oltre 2000 token al secondo in fase di prompt e 97 token al secondo in fase di generazione.

Attenzione alle quantizzazioni

L'utente avverte che le quantizzazioni potrebbero essere state create con una funzione errata. In tal caso, รจ necessario attendere che vengano ricreate per evitare output senza senso.