Microsoft ha rilasciato Phi-4-Reasoning-Vision-15B, un modello multimodale compatto progettato per il ragionamento e la comprensione della visione.

Architettura e Funzionamento

Phi-4 si basa sul modello linguistico Phi-4-Reasoning e sull'encoder visivo SigLIP-2, utilizzando un'architettura mid-fusion. L'encoder visivo converte le immagini in token visivi, proiettati nello spazio di embedding del modello linguistico. Questa architettura permette di sfruttare i punti di forza di entrambi i componenti pre-addestrati, mantenendo bassi i costi di training e inference.

Il modello impiega un encoder visivo a risoluzione dinamica, con un massimo di 3.600 token visivi, per consentire una comprensione delle immagini ad alta risoluzione, essenziale per compiti come la localizzazione di elementi GUI e l'analisi dettagliata di documenti. L'attenzione bidirezionale all'interno delle immagini (intra-immagine) migliora il ragionamento spaziale, evitando i rischi di overfitting.

Training e Dati

Phi-4-Reasoning-Vision-15B รจ addestrato tramite Supervised Fine-Tuning (SFT) su un mix di dati di ragionamento e non-ragionamento. Il modello opera come un singolo sistema in grado di invocare il ragionamento chain-of-thought (utilizzando i blocchi <think>...</think>) per compiti come il ragionamento matematico e scientifico, oppure di ricorrere all'inference diretta (contrassegnata con <nothink>) per compiti incentrati sulla percezione, come la didascalia, il rilevamento di oggetti e la localizzazione.

I dati di training consistono principalmente in dataset open-source di visione-linguaggio, filtrati e migliorati, integrati da dati specifici del dominio provenienti da team interni di Microsoft e acquisizioni di dati mirate. Questo approccio data-centrico, combinato con requisiti di calcolo di training moderati (240 GPU NVIDIA B200 per 4 giorni), distingue Phi-4-Reasoning-Vision-15B dai modelli che si basano su molti piรน dati e risorse di calcolo.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.