LLM e la Teoria della Mente: uno studio comparativo

Una recente ricerca ha esplorato se i modelli linguistici di grandi dimensioni (LLM) possiedano una "Teoria della Mente" (ToM), ovvero la capacità di dedurre le credenze, le intenzioni e le emozioni altrui a partire da un testo. Lo studio si interroga sulla reale comprensione di questi modelli, considerando che sono addestrati su dati linguistici senza interazioni sociali dirette.

Metodologia e risultati

I ricercatori hanno valutato cinque LLM, confrontandoli con un gruppo di controllo umano, utilizzando una versione adattata di un test ampiamente impiegato nella ricerca sulla ToM. Il test consisteva nel rispondere a domande sulle credenze, le intenzioni e le emozioni dei personaggi di alcune storie.

I risultati hanno evidenziato un divario nelle prestazioni tra i modelli. I modelli più piccoli e meno recenti si sono dimostrati sensibili al numero di indizi inferenziali disponibili e vulnerabili alla presenza di informazioni irrilevanti. Al contrario, GPT-4o ha mostrato elevata accuratezza e robustezza, raggiungendo prestazioni paragonabili a quelle umane anche nelle condizioni più complesse. Questo risultato alimenta il dibattito sullo stato cognitivo degli LLM e sulla distinzione tra comprensione genuina e approssimazione statistica.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.