Minimax ha annunciato ufficialmente il rilascio del modello linguistico M2.5. Le prime valutazioni, pubblicate dall'azienda, indicano performance elevate in benchmark specifici per lo sviluppo software e la navigazione web.
Benchmark
I dati preliminari mostrano i seguenti risultati:
- SWE-Bench Verified: 80.2%
- Multi-SWE-Bench: 51.3%
- BrowseComp: 76.3%
Ulteriori dettagli sono disponibili sulla pagina ufficiale di Minimax.
Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!