SWE-rebench: i risultati di febbraio
Il benchmark SWE-rebench è stato aggiornato con i risultati di febbraio, valutando le performance di diversi modelli su 57 nuove attività di GitHub PR. I modelli dovevano leggere issue reali, modificare il codice ed eseguire test per superare la suite completa.
Claude Opus 4.6 si conferma leader con un tasso di risoluzione del 65.3%. Seguono a breve distanza gpt-5.2-medium (64.4%), GLM-5 (62.8%) e gpt-5.4-medium (62.8%).
Gemini 3.1 Pro Preview (62.3%) e DeepSeek-V3.2 (60.9%) completano la top 6.
I modelli open-weight e ibridi continuano a migliorare. Qwen3.5-397B (59.9%), Step-3.5-Flash (59.6%) e Qwen3-Coder-Next (54.4%) stanno colmando il divario, grazie al miglioramento nell'uso di contesti più ampi e allo scaling.
MiniMax M2.5 (54.6%) si distingue come opzione economicamente vantaggiosa con prestazioni competitive.
Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!