SWE-rebench: GPT-5.4, Qwen3.5 e Gemini 3.1 Pro a confronto

SWE-rebench: i risultati di febbraio

Il benchmark SWE-rebench è stato aggiornato con i risultati di febbraio, valutando le performance di diversi modelli su 57 nuove attività di GitHub PR. I modelli dovevano leggere issue reali, modificare il codice ed eseguire test per superare la suite completa.

Claude Opus 4.6 si conferma leader con un tasso di risoluzione del 65.3%. Seguono a breve distanza gpt-5.2-medium (64.4%), GLM-5 (62.8%) e gpt-5.4-medium (62.8%).

Gemini 3.1 Pro Preview (62.3%) e DeepSeek-V3.2 (60.9%) completano la top 6.

I modelli open-weight e ibridi continuano a migliorare. Qwen3.5-397B (59.9%), Step-3.5-Flash (59.6%) e Qwen3-Coder-Next (54.4%) stanno colmando il divario, grazie al miglioramento nell'uso di contesti più ampi e allo scaling.

MiniMax M2.5 (54.6%) si distingue come opzione economicamente vantaggiosa con prestazioni competitive.

Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

SWE-rebench: GPT-5.4, Qwen3.5 e Gemini 3.1 Pro a confronto

SWE-rebench: i risultati di febbraio

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

SWE-rebench: GLM-5, MiniMax M2.5 e Opus dominano le consegne di gennaio 2026

Qwen 3 Max-Thinking: prestazioni superiori nel ragionamento spaziale

Qwen 3.5 27B: il modello cinese migliore sotto i 70B per traduzioni

👥 Unisciti a 160+ appassionati di AI