Aggiornamenti multipli e bias nei modelli linguistici

I modelli linguistici di grandi dimensioni (LLM) sono sempre più utilizzati in attività che richiedono una conoscenza approfondita. In questi scenari, è comune che le informazioni debbano essere aggiornate più volte all'interno del contesto. Un nuovo studio si concentra su come gli LLM gestiscono questi aggiornamenti multipli, in cui diverse versioni storicamente valide di un fatto competono durante il processo di recupero.

Il framework DKI per la valutazione

I ricercatori hanno introdotto un framework di valutazione chiamato Dynamic Knowledge Instance (DKI). Questo framework modella gli aggiornamenti multipli dello stesso fatto come un indizio associato a una sequenza di valori aggiornati. I modelli vengono valutati tramite il probing dello stato iniziale (il più vecchio) e dello stato finale (il più recente).

Risultati e analisi

I risultati mostrano che il bias di recupero aumenta con il numero di aggiornamenti. L'accuratezza nello stato iniziale rimane elevata, mentre quella nello stato più recente diminuisce in modo significativo. Analisi diagnostiche di attenzione, similarità degli stati nascosti e output logits rivelano che questi segnali diventano meno discriminanti sugli errori, fornendo una base instabile per identificare l'ultimo aggiornamento. Interventi euristici ispirati alla psicologia cognitiva hanno prodotto solo miglioramenti modesti.

Implicazioni

Lo studio evidenzia una sfida persistente per gli LLM: tracciare e seguire gli aggiornamenti di conoscenza in contesti lunghi. Questo ha implicazioni importanti per l'affidabilità dei modelli in applicazioni dove la conoscenza è in continua evoluzione. Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi trade-off.