I modelli Claude Code (Opus 4.6) si posizionano in testa all'ultima classifica SWE-rebench, ottenendo un tasso di risoluzione del 52.9% su 48 nuove attività estratte da richieste pull (PR) di GitHub create nel mese precedente. Il benchmark SWE-rebench valuta la capacità dei modelli di leggere issue reali, modificare il codice ed eseguire test, con l'obiettivo di superare la suite completa.
Performance dei modelli
- Claude Code (Opus 4.6) eccelle anche nel pass@5, raggiungendo il 70.8%.
- Claude Opus 4.6 e gpt-5.2-xhigh seguono da vicino, con un tasso di risoluzione del 51.7%.
- gpt-5.2-medium (51.0%) mostra performance simili alle configurazioni di punta.
- Tra i modelli open source, Kimi K2 Thinking (43.8%), GLM-5 (42.1%) e Qwen3-Coder-Next (40.0%) guidano il gruppo.
- MiniMax M2.5 (39.6%) continua a mostrare buone performance, pur rimanendo una delle opzioni più economiche.
- Si nota un divario tra le varianti Kimi: K2 Thinking (43.8%) vs K2.5 (37.9%).
- Le nuove varianti più piccole (GLM-4.7 Flash, gpt-5-mini-medium) sacrificano le performance per l'efficienza, attestandosi tra il 25% e il 31%.
Per chi valuta deployment on-premise, esistono trade-off tra performance, costo e requisiti di risorse. AI-RADAR offre framework analitici su /llm-onpremise per valutare queste alternative.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!