GLM 4.7 Flash: versioni non censurate "Balanced" e "Aggressive"

GLM 4.7 Flash senza censure: due varianti per diversi utilizzi

Sono state rilasciate versioni non censurate del modello GLM 4.7 Flash di Z.ai, un modello Mixture of Experts (MoE) da 30 miliardi di parametri, di cui circa 3 miliardi attivi, con una finestra di contesto di 200.000 token.

Le due varianti disponibili sono:

Balanced: Ottimizzata per attività di coding agentico che richiedono affidabilità, pur rimanendo non censurata.
Aggressive: Ideale per qualsiasi altro argomento senza censure.

Sono disponibili diverse quantizzazioni: FP16, Q8_0, Q6_K, Q4_K_M.

Compatibilità e impostazioni di sampling

Il modello è compatibile con llama.cpp, LM Studio, Jan e koboldcpp. Al momento, presenta problemi di compatibilità con Ollama a causa di problematiche legate al chat template.

Le impostazioni di sampling suggerite da Z.ai sono:

Generale: --temp 1.0 --top-p 0.95
Agentic/tool use: --temp 0.7 --top-p 1.0
Repeat penalty: mantenere a 1.0 (o disattivare)
Utenti di llama.cpp: --min-p 0.01 e --jinja

Modelli più piccoli: GPT-OSS 20B

Per chi cerca modelli più piccoli, è disponibile anche GPT-OSS 20B, MXFP4 - Lossless, nelle versioni Balanced e Aggressive.

GLM 4.7 Flash: versioni non censurate "Balanced" e "Aggressive"

GLM 4.7 Flash senza censure: due varianti per diversi utilizzi

Compatibilità e impostazioni di sampling

Modelli più piccoli: GPT-OSS 20B

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

GLM-4.7-Flash: il modello di Z.ai per inferenza locale

GLM-4.7-Flash: un modello da 30B impressionante nel BrowseComp

GLM-4.7-Flash: un modello LLM con un processo di pensiero chiaro

👥 Unisciti a 160+ appassionati di AI