GLM 4.7 Flash senza censure: due varianti per diversi utilizzi
Sono state rilasciate versioni non censurate del modello GLM 4.7 Flash di Z.ai, un modello Mixture of Experts (MoE) da 30 miliardi di parametri, di cui circa 3 miliardi attivi, con una finestra di contesto di 200.000 token.
Le due varianti disponibili sono:
- Balanced: Ottimizzata per attività di coding agentico che richiedono affidabilità, pur rimanendo non censurata.
- Aggressive: Ideale per qualsiasi altro argomento senza censure.
Sono disponibili diverse quantizzazioni: FP16, Q8_0, Q6_K, Q4_K_M.
Compatibilità e impostazioni di sampling
Il modello è compatibile con llama.cpp, LM Studio, Jan e koboldcpp. Al momento, presenta problemi di compatibilità con Ollama a causa di problematiche legate al chat template.
Le impostazioni di sampling suggerite da Z.ai sono:
- Generale: --temp 1.0 --top-p 0.95
- Agentic/tool use: --temp 0.7 --top-p 1.0
- Repeat penalty: mantenere a 1.0 (o disattivare)
- Utenti di llama.cpp: --min-p 0.01 e --jinja
Modelli più piccoli: GPT-OSS 20B
Per chi cerca modelli più piccoli, è disponibile anche GPT-OSS 20B, MXFP4 - Lossless, nelle versioni Balanced e Aggressive.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!