La sfida dell'aggiornamento della conoscenza negli MLLM

I Multimodal Large Language Models (MLLM) rappresentano un passo significativo nell'evoluzione dell'intelligenza artificiale, combinando la comprensione del linguaggio naturale con l'elaborazione di altre modalità, come le immagini. Questi modelli sono progettati per interpretare e generare risposte basate su input complessi, come query testuali accompagnate da immagini. Tuttavia, la gestione e l'aggiornamento della loro base di conoscenza, un processo noto come Knowledge Editing, presenta sfide inaspettate che possono compromettere l'affidabilità e la coerenza delle loro risposte.

Una problematica emergente, denominata "editing decoupling failure", è stata identificata come un ostacolo significativo. Questo fenomeno si verifica quando le informazioni aggiornate in un MLLM, ottenute tramite input multimodali (ad esempio, una domanda testuale abbinata a un'immagine), non vengono mantenute se il modello viene interrogato con input unimodali separati. In pratica, il modello può fornire una risposta corretta e aggiornata quando riceve un'immagine e un testo insieme, ma revertire a fatti obsoleti o pre-modifica se gli viene presentata solo l'immagine o solo il testo. Questa incoerenza è particolarmente critica per le applicazioni enterprise che richiedono precisione e coerenza in ogni scenario di utilizzo.

Analisi empirica e la radice del problema

Un'analisi empirica approfondita ha rivelato la causa sottostante di questa "editing decoupling failure". Contrariamente all'ipotesi che la conoscenza delle entità negli MLLM sia immagazzinata come una rappresentazione unificata, la ricerca suggerisce che essa è invece distribuita attraverso percorsi distinti e specifici per ciascuna modalità. Ciò significa che le informazioni relative a un'entità non risiedono in un unico "luogo" all'interno del modello, ma sono frammentate e gestite separatamente per gli input testuali e visivi.

Di conseguenza, gli aggiornamenti della conoscenza che sono stati ottimizzati o "polarizzati" verso query multimodali non riescono a propagarsi efficacemente ai circuiti unimodali corrispondenti. Se un'operazione di Knowledge Editing modifica la rappresentazione di un'entità per un input combinato testo-immagine, tale modifica potrebbe non raggiungere o non influenzare correttamente la rappresentazione della stessa entità quando viene presentata solo come testo o solo come immagine. Questa disconnessione architetturale crea un divario nella coerenza della conoscenza, rendendo i modelli meno prevedibili e più inclini a errori in scenari d'uso reali.

DECODE: Una soluzione per la coerenza

Per affrontare questa lacuna critica, è stato proposto un nuovo approccio chiamato DECODE. Questo Framework è progettato per disaccoppiare e localizzare esplicitamente gruppi neuronali specifici per modalità, destinati alla gestione della conoscenza. L'obiettivo di DECODE è garantire che gli aggiornamenti della conoscenza siano coerenti e si propaghino correttamente attraverso tutte le modalità, indipendentemente dal tipo di input.

Attraverso una serie di esperimenti, DECODE ha dimostrato di raggiungere aggiornamenti di conoscenza efficaci e consistenti sotto diversi trigger di modalità. Questo significa che il modello, una volta aggiornato con DECODE, è in grado di mantenere la conoscenza corretta sia che riceva input multimodali sia che riceva input unimodali. Mitigando le "editing decoupling failures", DECODE migliora significativamente l'affidabilità e la robustezza degli MLLM, rendendoli più adatti per applicazioni dove la coerenza delle risposte è fondamentale.

Implicazioni per i deployment on-premise

Per le organizzazioni che valutano il deployment di MLLM in ambienti self-hosted o air-gapped, la coerenza e l'affidabilità degli aggiornamenti della conoscenza sono aspetti di primaria importanza. In contesti dove la sovranità dei dati e la compliance normativa sono vincoli stringenti, la prevedibilità del comportamento del modello è essenziale. Un MLLM che mostra incoerenze nelle sue risposte a seconda della modalità di input può introdurre rischi operativi e di sicurezza, oltre a complicare la validazione e la certificazione del modello.

Soluzioni come DECODE, che mirano a garantire l'integrità e la coerenza della conoscenza all'interno dei modelli, sono quindi cruciali per i team di DevOps lead e gli architetti di infrastruttura. La capacità di effettuare Knowledge Editing in modo robusto e prevedibile riduce il TCO associato alla manutenzione e al Fine-tuning dei modelli, minimizzando la necessità di costosi re-training completi o di interventi manuali per correggere le discrepanze. Per chi valuta deployment on-premise, AI-RADAR offre framework analitici su /llm-onpremise per valutare i trade-off tra controllo, performance e costi, sottolineando l'importanza di modelli intrinsecamente stabili e coerenti.