\n## Introduzione\n\nIl nuovo framework di allenamento, chiamato OpenMMReasoner, è stato sviluppato dai ricercatori della MiroMind AI e diverse università cinesi.\n\n\n\n## Dettagli tecnici\n\nOpenMMReasoner utilizza un processo a due fasi. La prima fase rifina una base model con un dataset curato in una fase di fine tuning supervisionata (SFT). La seconda fase, guidata dalla lezione del rinforzo (RL), aiuta il modello a ragionare più efficacemente nelle attività che coinvolgono sia testo che dati visuali.\n\n\n\n## Implicazioni pratiche\n\nL'esperimento mostra che i modelli addestrati con OpenMMReasoner superano altri modelli di ragione visiva a guidaggio dei leader, spesso addestrando su un dataset più piccolo e di qualità superiore. Il framework e tutte le sue risorse, compresa una modello addestrata da 7 miliardi di parole, sono completamente aperti per fornire una base solida per costruire applicazioni che richiedono tracciabilità e robustezza.\n\n\n\n## Conclusioni e prospettive future\n\nSecondo Kaichen Zhang, uno degli autori del paper di ricerca che outlines il nuovo metodo, OpenMMReasoner offre significative vantaggi per le aziende che cercano di andare oltre i grandi sistemi chiusi. \"Un modello più piccolo e aperto a source ha vantaggi pratici: imprese possono deployarlo localmente, ridurre la latenza, ridurre i costi dei token associati alle lunghe catene di pensiero, mantenere il pieno controllo sui propri dati e [è] fine-tunabile per adattarsi ai compiti specifici downstream '\" ha detto VentureBeat.\n ## La sfida della ragione multimodale trasparente\n\nI recenti progressi nella lezione del rinforzo con premi verificabili (RLVR) hanno significativamente migliorato le capacità delle grandi modello linguistici (LLM). RLVR addestra LLM a generare chain-of-thought tokens (che rappresentano i processi di ragionamento umani) prima di generare la risposta finale. Questo migliora la capacità del modello a risolvere compiti di ragionamento complessi come matematica e programmazione.\n\n\n\n## L'OpenMMReasoner ricetta\n\nL'OpenMMReasoner affronta questo gap con una ricetta di allenamento completa e scalabile costruita sulle basi delle modello linguistici più aperte. I ricercatori hanno trovato che era fondamentale curare un dataset di alta qualità aumentando la diversità dei dati.\n\n\n\n## Il passo della distillazione\n\nLa prima fase della ricetta è un pipeline di fine tuning supervisionato a tre fasi. Inizia con data sourcing, dove il team ha raccolto circa 103.000 coppie questione risposta da dataset pubblici che coprono generali Q&A e compiti di ragionamento.\n\n\n\n## La distillazione\n\nNext, aggiungono una distillazione step, utilizzando un modello potente (Qwen3-VL-235B-Instruct) per generare nuovi, high-quality reasoning traces per le domande selezionate. Il dataset verrà utilizzato per addestrare un modello più piccolo.\n\n\n\n## La mixazione del dominio\n\nPer aumentare la diversità delle risposte, il team ha generato multiple verified reasoning traces per ogni domanda. Ciò ha espanso il dataset a 583.000 sampili. Infine, hanno implementato una fase di domain mixing, aggiungendo dati da domini come la scienza, la matematica e le enigmi per generalizzare ulteriormente l'abilità del modello di ragionamento, portando a un SFT dataset finale di 874.000 esempi.\n\n## Il passo della lezione del rinforzo\n\nLa seconda fase è una ricetta di lezione del rinforzo che utilizza un dataset più piccolo di 74.000 sampili curato da domini come la scienza, la matematica e i puzzle. Il modello viene addestrato con un composto reward function che prende in considerazione sia la correttezza della risposta finale che la consistenza del formato dell'output. Per migliorare l'efficienza, il processo include una penalizzazione per "overthinking", scoraggiando il modello da generare sequenze di ragionamento eccessivamente lunghe (un problema comune con i modelli di ragione addestrati attraverso RL, che imparano a generare risposte troppo lunghe, portando costi e risposte più lente).\n\n## La ricetta come strumento per gli aziende\n\nSecondo Zhang, il passo della lezione del rinforzo fondamentalemente cambia la affidabilità degli output del modello. \"Modelli tradizionali spesso saltano direttamente alla risposta, che significa esplorare solo una piccola porzione dello spazio di ragionamento\," ha detto Zhang. \"In contraste, un approccio di ragione prima forza il modello a esaminare esplicitamente più passi intermedi... [per farlo] arrivarci a risposte con una maggiore consistenza interna\.\n\n## Le prestazioni del modello\n\nI ricercatori hanno utilizzato la ricetta OpenMMReasoner per generare dati per fine-tunare il modello Qwen2.5-VL-7B-Instruct aperto-source vision-language. Il risultato è un LMM molto capace che supera costantemente i metodi di ragione visiva più avanzati, come Open Vision Reasoner (OVR), su una gamma ampiamente di benchmarks di ragione multimodale. La prima fase della fine tuning sola crea un modello di base forte che raggiunge prestazioni superiori e efficienza dati a confronto con altri approcci di fine tuning a SFT, nonostante l'utilizzo di un dataset più piccolo.\n\n## L'emergere graduale dei comportamenti di ragionamento linguistici\n\nUno degli scopi del progetto fu quello di esplorare l'emergere graduale dei comportamenti di ragionamento linguistici, indicando una trasferenza della competenza di ragionamento da modali multi a compiti linguisticamente puri. Il risultato è che il modello supera costantemente i metodi di ragione visiva a guidare dei leader su una gamma ampiamente di benchmarks di ragione multimodale.\n\n## Le prospettive future del progetto\n\nSecondo Zhang, OpenMMReasoner offre un potenziale importante per la creazione di modello linguistici più robusti e adatti a diverse applicazioni.