M3Kang: Un nuovo benchmark per il ragionamento matematico multilingue

È stato rilasciato M3Kang, un dataset progettato per valutare le capacità di ragionamento matematico multimodale dei modelli vision-language (VLM) in un contesto multilingue. Questo dataset mira a colmare il divario tra le prestazioni dei VLM e quelle umane nel ragionamento matematico, specialmente quando si considerano diverse lingue e modalità.

Dettagli del dataset

M3Kang è derivato dalla Kangaroo Math Competition, una competizione matematica internazionale che coinvolge annualmente oltre sei milioni di studenti in più di 90 paesi. Il dataset include 1.747 problemi a risposta multipla, organizzati per livello di difficoltà e tradotti in 108 lingue. Alcuni problemi includono diagrammi essenziali per la loro risoluzione.

Benchmark e risultati

Il dataset è stato utilizzato per effettuare benchmark su modelli VLM sia open source che proprietari. I risultati indicano che i modelli hanno ancora difficoltà con la matematica di base e il ragionamento basato su diagrammi. Le prestazioni migliorano con la presenza della lingua e la dimensione del modello, ma non necessariamente con il livello scolastico. L'analisi include anche dati sulle prestazioni di oltre 68.000 studenti, consentendo un confronto diretto con le capacità umane. M3Kang, inclusa la sottoinsieme M2Kang (solo in inglese), è rilasciato in open source, insieme al framework e al codice utilizzato per la sua costruzione.