SWE-rebench: GLM-5, MiniMax M2.5 e Opus dominano le consegne di gennaio 2026

I modelli Claude Code (Opus 4.6) si posizionano in testa all'ultima classifica SWE-rebench, ottenendo un tasso di risoluzione del 52.9% su 48 nuove attività estratte da richieste pull (PR) di GitHub create nel mese precedente. Il benchmark SWE-rebench valuta la capacità dei modelli di leggere issue reali, modificare il codice ed eseguire test, con l'obiettivo di superare la suite completa.

Performance dei modelli

Claude Code (Opus 4.6) eccelle anche nel pass@5, raggiungendo il 70.8%.
Claude Opus 4.6 e gpt-5.2-xhigh seguono da vicino, con un tasso di risoluzione del 51.7%.
gpt-5.2-medium (51.0%) mostra performance simili alle configurazioni di punta.
Tra i modelli open source, Kimi K2 Thinking (43.8%), GLM-5 (42.1%) e Qwen3-Coder-Next (40.0%) guidano il gruppo.
MiniMax M2.5 (39.6%) continua a mostrare buone performance, pur rimanendo una delle opzioni più economiche.
Si nota un divario tra le varianti Kimi: K2 Thinking (43.8%) vs K2.5 (37.9%).
Le nuove varianti più piccole (GLM-4.7 Flash, gpt-5-mini-medium) sacrificano le performance per l'efficienza, attestandosi tra il 25% e il 31%.

Per chi valuta deployment on-premise, esistono trade-off tra performance, costo e requisiti di risorse. AI-RADAR offre framework analitici su /llm-onpremise per valutare queste alternative.

SWE-rebench: GLM-5, MiniMax M2.5 e Opus dominano le consegne di gennaio 2026

Performance dei modelli

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Benchmark di GLM-5 e Minimax-2.5 su Fiction.liveBench

Test sul campo di GLM 4.7 Flash Q6 con RTX 5090

LLM per coding: GLM 4.7 Flash, GPT OSS 120B e Qwen3 Coder 30B a confronto

👥 Unisciti a 160+ appassionati di AI