GLM 4.7: guida all'uso con llama.cpp e Flash Attention

Pubblicato il 2026-01-21 14:51 ℹ️ LocalLLaMA 📰 Leggi l'articolo originale →

GLM 4.7 e llama.cpp: istruzioni per l'uso

Un utente ha condiviso una guida per far funzionare correttamente il modello GLM 4.7 su llama.cpp, sfruttando la Flash Attention per accelerare le prestazioni. La configurazione è stata testata su una GPU RTX 6000 Blackwell.

Configurazione

Per abilitare Flash Attention su CUDA, è necessario utilizzare questa branch Git:

https://github.com/am17an/llama.cpp/tree/glm_4.7_headsize

Inoltre, è necessario aggiungere la seguente opzione:

--override-kv deepseek2.expert_gating_func=int:2

Performance

Con questa configurazione, si raggiungono oltre 2000 token al secondo in fase di prompt e 97 token al secondo in fase di generazione.

Attenzione alle quantizzazioni

L'utente avverte che le quantizzazioni potrebbero essere state create con una funzione errata. In tal caso, è necessario attendere che vengano ricreate per evitare output senza senso.

Takeaway AI-Radar

Ecco come far funzionare GLM 4.7 su llama.cpp sfruttando Flash Attention per prestazioni superiori. La guida include dettagli sulla configurazione e un link a una branch Git specifica. Si segnala che le quantizzazioni potrebbero richiedere una ricreazione per evitare output errati.

🤖 Chiedi all'AI di questo argomento

Vuoi approfondire? Leggi l'articolo completo dalla fonte:

📖 VAI ALLA FONTE ORIGINALE

💻 Hai bisogno di infrastruttura GPU cloud?

Per eseguire inferenza LLM, training di modelli o testare configurazioni hardware, dai un'occhiata a questa piattaforma:

🌐

Vast.ai Marketplace GPU

Marketplace GPU decentralizzato con prezzi ultra-competitivi. Noleggia da una rete globale di provider. Perfetto per sperimentazione, sviluppo e carichi ottimizzati sui costi.

✓ Prezzi minimi ✓ Rete globale ✓ Opzioni flessibili

🔗 Questo è un link affiliato - potremmo ricevere una commissione senza costi aggiuntivi per te.