AI-RADAR.IT · AI-RADAR.NET · AI-RADAR.TECH

News & analisi per LLM locali, stack e hardware on-prem.

📁 LLM AI generated

M3Kang: Testare il ragionamento matematico multilingue nei modelli VLM

Pubblicato il 2026-01-26 05:04 🏆 ArXiv cs.CL 📰 Leggi l'articolo originale →

🏷️ Fine-Tuning

M3Kang: Testare il ragionamento matematico multilingue nei modelli VLM

M3Kang: Un nuovo benchmark per il ragionamento matematico multilingue

È stato rilasciato M3Kang, un dataset progettato per valutare le capacità di ragionamento matematico multimodale dei modelli vision-language (VLM) in un contesto multilingue. Questo dataset mira a colmare il divario tra le prestazioni dei VLM e quelle umane nel ragionamento matematico, specialmente quando si considerano diverse lingue e modalità.

Dettagli del dataset

M3Kang è derivato dalla Kangaroo Math Competition, una competizione matematica internazionale che coinvolge annualmente oltre sei milioni di studenti in più di 90 paesi. Il dataset include 1.747 problemi a risposta multipla, organizzati per livello di difficoltà e tradotti in 108 lingue. Alcuni problemi includono diagrammi essenziali per la loro risoluzione.

Benchmark e risultati

Il dataset è stato utilizzato per effettuare benchmark su modelli VLM sia open source che proprietari. I risultati indicano che i modelli hanno ancora difficoltà con la matematica di base e il ragionamento basato su diagrammi. Le prestazioni migliorano con la presenza della lingua e la dimensione del modello, ma non necessariamente con il livello scolastico. L'analisi include anche dati sulle prestazioni di oltre 68.000 studenti, consentendo un confronto diretto con le capacità umane. M3Kang, inclusa la sottoinsieme M2Kang (solo in inglese), è rilasciato in open source, insieme al framework e al codice utilizzato per la sua costruzione.

Takeaway AI-Radar

Presentato M3Kang, un nuovo dataset multilingue per valutare le capacità di ragionamento matematico multimodale dei modelli vision-language (VLM). Derivato dalla competizione Kangaroo Math, include problemi tradotti in 108 lingue, con benchmark su modelli open e closed source. I risultati mostrano difficoltà nel ragionamento matematico di base e basato su diagrammi.

🤖 Chiedi all'AI di questo argomento

Vuoi approfondire? Leggi l'articolo completo dalla fonte:

📖 VAI ALLA FONTE ORIGINALE

💻 Hai bisogno di infrastruttura GPU cloud?

Per eseguire inferenza LLM, training di modelli o testare configurazioni hardware, dai un'occhiata a questa piattaforma:

PeerPush Piattaforma Community AI

Scopri e condividi strumenti e progetti AI. Connettiti con sviluppatori, ottieni feedback e fai crescere la tua startup AI in una community vibrante di innovatori.

✓ Community AI ✓ Vetrina Progetti ✓ Rete Sviluppatori

🔗 Questo è un link affiliato - potremmo ricevere una commissione senza costi aggiuntivi per te.

AI-RADAR NEWSLETTER

Resta aggiornato — segnali AI nella tua inbox

Digest giornaliero o settimanale delle notizie AI più importanti. 160+ lettori, zero spam.

💬 Commenti (0)

🔒 Accedi o registrati per commentare gli articoli.

Nessun commento ancora. Sii il primo a commentare!

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Guida completa per eseguire modelli AI in locale: hardware, stack e privacy.

MiniMax M3: L'LLM Multimodale da 1 Milione di Token per Agenti e Coding

MiniMax M3: L'LLM Multimodale da 1 Milione di Token per Agenti e Coding

MiniMax ha presentato il suo nuovo modello M3, un LLM multimodale che si distingue per una finestra di contesto di 1 milione di token. Progettato per applicazio

MiniMax M2.7: in arrivo un modello multimodale?

MiniMax M2.7: in arrivo un modello multimodale?

Indiscrezioni su Reddit suggeriscono che MiniMax M2.7 potrebbe essere un modello multimodale. L'azienda sta esplorando sistemi che integrano diverse modalità di

Alibaba presenta Qwen 3.5: nuova frontiera per agenti AI multimodali

Alibaba presenta Qwen 3.5: nuova frontiera per agenti AI multimodali

Alibaba ha annunciato Qwen 3.5, un modello di intelligenza artificiale multimodale. L'annuncio sottolinea i continui progressi nel campo degli agenti AI capaci

Nuovo framework di allenamento migliora la ragione multimodale con dataset più piccoli

Nuovo framework di allenamento migliora la ragione multimodale con dataset più piccoli

I ricercatori hanno rilasciato un nuovo framework di allenamento che migliora le capacità dei modello linguistici in ragione multimodale utilizzando dataset più

La domanda di AI spinge le valutazioni del silicio: impatto su TSMC e Nvidia

La domanda di AI spinge le valutazioni del silicio: impatto su TSMC e Nvidia

L'esplosione della domanda di intelligenza artificiale sta esercitando una pressione significativa sulla supply chain del silicio, influenzando le valutazioni d

Altri articoli in LLM

TabFM di Google: classificazione e regressione tabulare senza addestramento

Longcat 2: quantization INT8 e FP8 per il deployment on-premise

Perché l’AI ha bisogno di un glossario (e cosa c’entra il deployment on-premise)

Smartschool e l’AI per i test d’ammissione: perché insegnare è più difficile che rispondere

Mistral rilascia Leanstral 1.5: verifica formale con 6 miliardi di parametri attivi

DeepSeek annuncia DSpark: un salto di velocità per l’inference degli LLM

→ Vedi tutti in LLM →

AI-Radar LLM On-Premise

Guida completa per eseguire modelli AI in locale: hardware, stack, privacy e architetture di riferimento.

👥 Unisciti a 160+ appassionati di AI

Una community gratuita di sviluppatori, ingegneri e appassionati di AI — newsletter, commenti, radar settimanale.

Iscriviti gratis → Hai già un account? Accedi