Minimax ha annunciato ufficialmente il rilascio del modello linguistico M2.5. Le prime valutazioni, pubblicate dall'azienda, indicano performance elevate in benchmark specifici per lo sviluppo software e la navigazione web.

Benchmark

I dati preliminari mostrano i seguenti risultati:

  • SWE-Bench Verified: 80.2%
  • Multi-SWE-Bench: 51.3%
  • BrowseComp: 76.3%

Ulteriori dettagli sono disponibili sulla pagina ufficiale di Minimax.

Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.