Aggiornamento per GLM-4.7-Flash-GGUF

È stato rilasciato un aggiornamento per il modello GLM-4.7-Flash-GGUF che risolve un problema critico. Precedentemente, un bug causava comportamenti inattesi, come loop infiniti e output di qualità inferiore. I tecnici di llama.cpp hanno identificato e corretto la causa principale.

Per beneficiare dei miglioramenti, è necessario riscaricare il modello aggiornato. Questo assicurerà che le vostre applicazioni sfruttino le ultime correzioni e ottimizzazioni.

Parametri Raccomandati

Z.ai ha fornito dei parametri consigliati per ottenere prestazioni ottimali con il modello:

  • Utilizzo generale: --temp 1.0 --top-p 0.95
  • Tool-calling: --temp 0.7 --top-p 1.0
  • Llama.cpp: Se si utilizza llama.cpp, impostare --min-p 0.01 (il valore predefinito di llama.cpp è 0.1).

Il modello aggiornato è disponibile per il download su Hugging Face.