MiniMax ha presentato M2.7, la sua ultima versione di modello, sottoponendola a benchmark incentrati sul coding autonomo.

Risultati dei Benchmark

M2.7 รจ stato valutato utilizzando due benchmark principali:

  • PinchBench: In questo test, focalizzato su task standardizzati di agenti OpenClaw, M2.7 ha ottenuto un punteggio dell'86.2%, posizionandosi al quinto posto assoluto, vicino a modelli come GLM-5 e GPT-5.4.
  • Kilo Bench: Questo benchmark, composto da 89 task, valuta le capacitร  di coding autonomo in diversi ambiti, dalle operazioni Git alla crittanalisi. M2.7 ha superato il 47% dei task, dimostrando un profilo comportamentale distintivo.

Un'analisi piรน approfondita del Kilo Bench ha rivelato che M2.7 tende a esaminare ampiamente il contesto prima di intervenire, analizzando dipendenze e tracciando call chain. Questo approccio risulta vantaggioso in task che richiedono una comprensione approfondita, ma puรฒ portare a timeout in situazioni piรน urgenti. รˆ interessante notare come ogni modello testato abbia risolto task unici, evidenziando la complementarietร  tra diverse architetture.

Token Efficiency e Costi

Rispetto ad altri modelli disponibili, M2.7 si distingue per un costo inferiore (0.30$/M input e 1.20$/M output) pur offrendo performance competitive in determinati scenari. Tuttavia, la sua tendenza a una maggiore esplorazione del contesto si traduce in tempi di esecuzione piรน lunghi rispetto ai suoi predecessori.

Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.