I modelli Claude Code (Opus 4.6) si posizionano in testa all'ultima classifica SWE-rebench, ottenendo un tasso di risoluzione del 52.9% su 48 nuove attività estratte da richieste pull (PR) di GitHub create nel mese precedente. Il benchmark SWE-rebench valuta la capacità dei modelli di leggere issue reali, modificare il codice ed eseguire test, con l'obiettivo di superare la suite completa.

Performance dei modelli

  • Claude Code (Opus 4.6) eccelle anche nel pass@5, raggiungendo il 70.8%.
  • Claude Opus 4.6 e gpt-5.2-xhigh seguono da vicino, con un tasso di risoluzione del 51.7%.
  • gpt-5.2-medium (51.0%) mostra performance simili alle configurazioni di punta.
  • Tra i modelli open source, Kimi K2 Thinking (43.8%), GLM-5 (42.1%) e Qwen3-Coder-Next (40.0%) guidano il gruppo.
  • MiniMax M2.5 (39.6%) continua a mostrare buone performance, pur rimanendo una delle opzioni più economiche.
  • Si nota un divario tra le varianti Kimi: K2 Thinking (43.8%) vs K2.5 (37.9%).
  • Le nuove varianti più piccole (GLM-4.7 Flash, gpt-5-mini-medium) sacrificano le performance per l'efficienza, attestandosi tra il 25% e il 31%.

Per chi valuta deployment on-premise, esistono trade-off tra performance, costo e requisiti di risorse. AI-RADAR offre framework analitici su /llm-onpremise per valutare queste alternative.