Microsoft presenta Phi-4: modello multimodale compatto per ragionamento

Microsoft ha annunciato Phi-4-reasoning-vision-15B, un modello multimodale open-weight con 15 miliardi di parametri, disponibile tramite Microsoft Foundry, HuggingFace e GitHub.

Caratteristiche principali

Phi-4-reasoning-vision-15B è progettato per un'ampia gamma di attività vision-language, tra cui image captioning, domande sulle immagini, lettura di documenti e ricevute, aiuto con i compiti a casa e inferenze su sequenze di immagini. Il modello eccelle nel ragionamento matematico e scientifico, oltre che nella comprensione di elementi su schermi di computer e dispositivi mobili.

Un aspetto interessante è il suo valore rispetto ad altri modelli open-weight, offrendo un buon compromesso tra accuratezza e costi di calcolo. Phi-4 mostra prestazioni competitive rispetto a modelli più lenti che richiedono tempi di calcolo e token dieci volte superiori, e una migliore accuratezza rispetto a modelli altrettanto veloci, specialmente nel ragionamento matematico e scientifico.

Focus su modelli vision-language più piccoli e veloci

Molti modelli vision-language (VLM) tendono a crescere in termini di numero di parametri e token consumati e generati, aumentando i costi di training e inference e limitandone l'usabilità per il deployment, specialmente in contesti con risorse limitate o interattivi. Phi-4-reasoning-vision-15B si pone come alternativa, puntando sull'efficienza tramite un'attenta progettazione del modello e la cura dei dati. Il modello è stato addestrato con molti meno calcoli rispetto a VLM open-weight di dimensioni simili, utilizzando solo 200 miliardi di token di dati multimodali.

Lezioni dall'addestramento di un modello multimodale

L'addestramento di un modello di ragionamento multimodale richiede scelte precise sull'architettura del modello, la qualità e la composizione del dataset e l'interazione tra attività di ragionamento e attività di percezione. L'architettura di Phi-4 si basa su una fusione intermedia (mid-fusion), che utilizza un encoder di visione pre-addestrato per convertire le immagini in token visivi proiettati nello spazio di embedding di un LLM pre-addestrato.

La qualità dei dati è un altro aspetto cruciale. Il dataset finale è composto principalmente da dati open-source filtrati e migliorati, dati interni specifici per il dominio e dati acquisiti in modo mirato. Microsoft ha posto particolare attenzione al bilanciamento dei dati, variando i rapporti tra matematica e scienze e dati relativi all'utilizzo del computer. È stato riscontrato che l'aumento dei dati matematici migliora sia i benchmark matematici e scientifici che quelli relativi all'utilizzo del computer.

Applicazioni

Phi-4-reasoning-vision-15B può essere utilizzato in diversi contesti, tra cui la descrizione di immagini, la risposta a domande, l'interpretazione di sequenze di immagini e il riconoscimento di oggetti e testo. Il modello eccelle in attività che combinano input visivi con inferenze strutturate, come la risoluzione di problemi matematici presentati in forma visiva e il supporto al ragionamento in contesti educativi o scientifici.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Microsoft presenta Phi-4: modello multimodale compatto per ragionamento

Caratteristiche principali

Focus su modelli vision-language più piccoli e veloci

Lezioni dall'addestramento di un modello multimodale

Applicazioni

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Microsoft Phi-4: modello multimodale compatto per ragionamento e visione

MiniMax M2.7: in arrivo un modello multimodale?

Qwen: in arrivo un nuovo modello multimodale?

👥 Unisciti a 160+ appassionati di AI