MiniMax ha presentato M2.7, la sua ultima versione di modello, sottoponendola a benchmark incentrati sul coding autonomo.
Risultati dei Benchmark
M2.7 รจ stato valutato utilizzando due benchmark principali:
- PinchBench: In questo test, focalizzato su task standardizzati di agenti OpenClaw, M2.7 ha ottenuto un punteggio dell'86.2%, posizionandosi al quinto posto assoluto, vicino a modelli come GLM-5 e GPT-5.4.
- Kilo Bench: Questo benchmark, composto da 89 task, valuta le capacitร di coding autonomo in diversi ambiti, dalle operazioni Git alla crittanalisi. M2.7 ha superato il 47% dei task, dimostrando un profilo comportamentale distintivo.
Un'analisi piรน approfondita del Kilo Bench ha rivelato che M2.7 tende a esaminare ampiamente il contesto prima di intervenire, analizzando dipendenze e tracciando call chain. Questo approccio risulta vantaggioso in task che richiedono una comprensione approfondita, ma puรฒ portare a timeout in situazioni piรน urgenti. ร interessante notare come ogni modello testato abbia risolto task unici, evidenziando la complementarietร tra diverse architetture.
Token Efficiency e Costi
Rispetto ad altri modelli disponibili, M2.7 si distingue per un costo inferiore (0.30$/M input e 1.20$/M output) pur offrendo performance competitive in determinati scenari. Tuttavia, la sua tendenza a una maggiore esplorazione del contesto si traduce in tempi di esecuzione piรน lunghi rispetto ai suoi predecessori.
Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!