Zhipu AI ha annunciato la disponibilità di GLM-5.1, il suo modello di punta più recente, accessibile tramite i piani a pagamento "Coding Plan".

Performance e Capacità

Secondo i dati forniti, GLM-5.1 raggiunge performance elevate nei benchmark di coding:

  • SWE-bench-Verified: 77.8 punti, il punteggio più alto tra i modelli open-source.
  • Terminal Bench 2.0: 56.2 punti, un altro risultato SOTA (state-of-the-art) per modelli open-source.
  • Capacità di competere con GPT-4o e avvicinarsi a Claude Opus 4.5 nelle attività di coding.
  • Finestra di contesto di 200.000 token, con una capacità di output massima di 128.000 token.
  • 744 miliardi di parametri (40 miliardi attivati) e pre-training su 28.5T di dati.

Applicazioni Pratiche

GLM-5.1 è progettato per affrontare task complessi come:

  • Sviluppo autonomo di codice in più fasi con intervento manuale minimo.
  • Refactoring e debugging di codebase di grandi dimensioni.
  • Workflow agentici: pianificazione, esecuzione, debug e consegna.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per supportare queste valutazioni.