GLM 4.7 e llama.cpp: istruzioni per l'uso
Un utente ha condiviso una guida per far funzionare correttamente il modello GLM 4.7 su llama.cpp, sfruttando la Flash Attention per accelerare le prestazioni. La configurazione รจ stata testata su una GPU RTX 6000 Blackwell.
Configurazione
Per abilitare Flash Attention su CUDA, รจ necessario utilizzare questa branch Git:
https://github.com/am17an/llama.cpp/tree/glm_4.7_headsize
Inoltre, รจ necessario aggiungere la seguente opzione:
--override-kv deepseek2.expert_gating_func=int:2
Performance
Con questa configurazione, si raggiungono oltre 2000 token al secondo in fase di prompt e 97 token al secondo in fase di generazione.
Attenzione alle quantizzazioni
L'utente avverte che le quantizzazioni potrebbero essere state create con una funzione errata. In tal caso, รจ necessario attendere che vengano ricreate per evitare output senza senso.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!