Z.ai ha rilasciato GLM-4.7-Flash, un modello di ragionamento MoE (Mixture of Experts) da 30 miliardi di parametri, progettato specificamente per l'inferenza in locale.

Caratteristiche principali

  • Prestazioni: Ottimizzato per attivitร  di coding, workflow agent e chat, offrendo performance di alto livello.
  • Efficienza: Utilizza circa 3.6 miliardi di parametri attivi.
  • Contesto esteso: Supporta finestre di contesto fino a 200.000 token.
  • Benchmark: Ottimi risultati nei benchmark SWE-Bench e GPQA, oltre a test di ragionamento e chat.

La guida ufficiale per l'utilizzo e il fine-tuning di GLM-4.7-Flash รจ disponibile su Unsloth.ai.