GLM 4.7 Flash senza censure: due varianti per diversi utilizzi

Sono state rilasciate versioni non censurate del modello GLM 4.7 Flash di Z.ai, un modello Mixture of Experts (MoE) da 30 miliardi di parametri, di cui circa 3 miliardi attivi, con una finestra di contesto di 200.000 token.

Le due varianti disponibili sono:

  • Balanced: Ottimizzata per attività di coding agentico che richiedono affidabilità, pur rimanendo non censurata.
  • Aggressive: Ideale per qualsiasi altro argomento senza censure.

Sono disponibili diverse quantizzazioni: FP16, Q8_0, Q6_K, Q4_K_M.

Compatibilità e impostazioni di sampling

Il modello è compatibile con llama.cpp, LM Studio, Jan e koboldcpp. Al momento, presenta problemi di compatibilità con Ollama a causa di problematiche legate al chat template.

Le impostazioni di sampling suggerite da Z.ai sono:

  • Generale: --temp 1.0 --top-p 0.95
  • Agentic/tool use: --temp 0.7 --top-p 1.0
  • Repeat penalty: mantenere a 1.0 (o disattivare)
  • Utenti di llama.cpp: --min-p 0.01 e --jinja

Modelli più piccoli: GPT-OSS 20B

Per chi cerca modelli più piccoli, è disponibile anche GPT-OSS 20B, MXFP4 - Lossless, nelle versioni Balanced e Aggressive.