Il mistero di Elias Thorne: perché i Large Language Models raccontano sempre la stessa storia?

I Large Language Models (LLM) hanno rivoluzionato il modo in cui interagiamo con l'intelligenza artificiale, offrendo capacità di generazione testuale sorprendenti. Tuttavia, una recente indagine ha portato alla luce un fenomeno curioso e persistente: la tendenza di questi modelli a riproporre ciclicamente le stesse narrazioni, spesso incentrate su personaggi come Elias Thorne, un enigmatico guardiano del faro. Questo pattern solleva interrogativi fondamentali sulla diversità dei dati di training e sull'originalità dei contenuti generati.

Il fenomeno è stato notato per la prima volta dall'ingegnere software Daniel May, che ha osservato come Elias Thorne apparisse inaspettatamente nelle storie generate da diversi chatbot. Un'analisi delle tendenze di Google ha rivelato un picco nelle ricerche per "Elias Thorne" a fine 2025 e inizio 2026, parallelamente a un aumento delle query correlate a "guardiano del faro" negli anni precedenti. May ha testato vari LLM, inclusi Grok, Deepseek e Gemini, con il semplice prompt "raccontami una storia", riscontrando una frequente ricorrenza di trame simili che coinvolgevano fari, orologiai o esploratori.

L'indagine di Cornell e la persistenza narrativa

Per approfondire questa anomalia, i ricercatori Sil Hamilton e David Mimno del Dipartimento di Scienze dell'Informazione della Cornell University hanno pubblicato uno studio intitolato "Elias in the Lighthouse, Again?" sul repository di preprint arXiv. La loro ricerca ha coinvolto un campione significativo di 20.000 storie generate da alcuni dei più noti LLM, tra cui ChatGPT di OpenAI, Claude di Anthropic e Gemini di Google, oltre al chatbot dell'Allen Institute for AI.

Utilizzando cinque diversi prompt, i ricercatori hanno identificato una sorprendente uniformità: undici parole specifiche – nomi come Elias, Mara ed Elara, e professioni come guardiano del faro, orologiaio e bibliotecario – sono apparse in oltre l'88% delle storie generate. Questa coerenza si è manifestata con minime differenze tra i vari modelli esaminati, suggerendo una radice comune nel loro comportamento generativo. La scoperta è stata rapidamente ripresa e analizzata anche da testate specializzate come Unite.ai.

Implicazioni per i dataset e la diversità dei contenuti

La persistenza di queste figure e trame narrative in modelli così diversi indica una potenziale omogeneità nei vasti dataset su cui vengono addestrati gli LLM. Questi dataset, sebbene immensi, potrebbero contenere una sovrabbondanza di determinate narrazioni o archetipi, portando i modelli a "imparare" e riprodurre questi schemi con elevata frequenza. Per chi si occupa di deployment di LLM, sia in ambienti cloud che self-hosted, comprendere queste dinamiche è cruciale per la gestione delle aspettative e la pianificazione dei requisiti di output.

La questione della diversità dei contenuti generati è particolarmente rilevante. Se gli LLM tendono a convergere su un repertorio limitato di storie, ciò potrebbe limitare la loro utilità in applicazioni che richiedono vera originalità o la capacità di esplorare un'ampia gamma di scenari narrativi. Questo fenomeno ha già avuto ripercussioni, contribuendo all'inondazione del mercato dei libri auto-pubblicati generati da AI, dei contenuti su YouTube e dei siti di fake news con storie ripetitive e poco originali.

Prospettive future per la generazione di testo

Il "mistero di Elias Thorne" evidenzia una sfida complessa per lo sviluppo futuro dei Large Language Models. Per superare questa tendenza alla ripetizione, i ricercatori e gli sviluppatori dovranno esplorare nuove metodologie per la curatela e l'arricchimento dei dataset di training, puntando a una maggiore varietà e a una riduzione dei bias impliciti. Ciò potrebbe includere l'implementazione di tecniche di data augmentation più sofisticate o l'adozione di architetture di modelli che incentivino una maggiore esplorazione dello spazio latente.

Per le organizzazioni che considerano il deployment di LLM, la consapevolezza di queste limitazioni è fondamentale. La scelta di modelli e la strategia di fine-tuning dovrebbero tenere conto della necessità di generare output diversificati e pertinenti, specialmente in contesti dove la creatività e l'originalità sono valori chiave. Mentre gli LLM continuano a evolversi, la capacità di generare storie veramente uniche e imprevedibili rimane un obiettivo ambizioso ma essenziale per il loro pieno potenziale.