Dai LLM alle teorie: i test causali generativi spiegano il cervello

Prevedere come il cervello risponde al linguaggio è una sfida che i Large Language Models hanno vinto, ma capire il perché di quella predizione è rimasto un rebus. Tutti quei parametri sono indecifrabili. A sciogliere il nodo arriva Generative Causal Testing (GCT), un framework messo a punto da Microsoft Research con le università di Berkeley, San Francisco e Columbia, appena accettato su Nature Neuroscience. GCT non si limita a dire che una regione del cervello risponde a qualcosa: formula un’ipotesi stringata, per esempio “preparazione del cibo” o “nomi di luoghi propri”, e poi la mette alla prova con nuovi stimoli generati da un LLM.

Il dilemma della scatola nera in neuroscienza

Negli ultimi anni, i LLM hanno raggiunto traguardi notevoli nel replicare l’attività cerebrale legata al linguaggio. Basta fornire a un LLM lo stesso brano ascoltato da una persona sotto scanner fMRI e il modello riesce a simulare la risposta di singole aree corticali con una fedeltà che lascia stupiti. Il problema è che quelle previsioni rimangono opache: milioni di parametri inaccessibili, una scatola nera da cui non emerge alcuna teoria scientifica leggibile. Così, l’impasse tra capacità predittiva e comprensione è diventato uno dei nodi centrali della neuroscienza computazionale.

Come funziona il Generative Causal Testing

GCT ha due fasi. Nella prima, si analizza il modello predittivo di un voxel o di un’area cerebrale e si estraggono le brevi frasi che più ne attivano la risposta. Un LLM le riassume in una spiegazione verbale concisa. La seconda fase chiude il cerchio: lo stesso LLM scrive storie nuove, paragrafo per paragrafo, costruite per stimolare selettivamente la regione bersaglio secondo la spiegazione. I partecipanti ascoltano quelle storie mentre vengono sottoposti a risonanza magnetica funzionale; se l’attività della zona sale rispetto al testo di controllo, la spiegazione regge un vero test causale, non un semplice esercizio di correlazione.

Tre volontari sono tornati nello scanner per questo esperimento. Le storie sintetiche hanno attivato le regioni previste ben al di sopra del livello base, confermando che le sintesi di GCT catturano qualcosa a cui la corteccia risponde davvero. La robustezza delle spiegazioni era tanto maggiore quanto più stabile era il modello predittivo di partenza, un riscontro che dà solide fondamenta alla metodologia.

Validazione e scoperte sorprendenti

Con la validazione in mano, i ricercatori hanno puntato GCT su questioni più spinose. Hanno preso tre aree contigue che elaborano informazioni spaziali – la corteccia retrospleniale, il paraippocampo e l’area occipitale dei luoghi – e che finora erano considerate quasi fungibili. Generando stimoli differenziali (storie che accendono una zona ma lasciano silenti le vicine) il team è riuscito a distinguerle: per esempio, la RSC risponde più intensamente a nomi propri di luogo come Tokyo o Connecticut, e non a riferimenti generici. Una sfumatura che un modello grezzo non potrebbe mai isolare.

Ma il risultato forse più affascinante è la scoperta di micro-regioni prefrontali completamente nuove. Scansionando una griglia di posizioni candidate e scartando quelle poco stabili, GCT ha rivelato nuclei selettivi per concetti molto specifici: uno reagisce al dialogo tra persone (parole come “disse” o “raccontò”), uno alle ore del giorno (“l’una”) e un altro alle misure quantitative (“15 metri”). Sono distinzioni che nessuno stava cercando e che sono emerse perché il metodo può formulare un’ipotesi e testarla immediatamente.

Oltre la neuroscienza: il significato per la scienza dei dati

Il lavoro ha implicazioni che vanno oltre i confini delle neuroscienze. Oggi molti campi scientifici si trovano davanti allo stesso rompicapo: modelli che prevedono benissimo ma non spiegano nulla. GCT dimostra che un modello data-driven non è un punto di arrivo opaco; può essere distillato in una teoria leggibile e sottoponibile a verifica sperimentale. È una filosofia “genera-e-verifica” che potrebbe estendersi a tutti gli ambiti in cui i modelli predittivi hanno superato la nostra capacità di comprenderli.

Framework e sovranità dei dati: il nodo on-premise

Restano alcune considerazioni di carattere pratico per chi voglia adottare GCT in contesti sensibili. Lo studio non entra nei dettagli dell’infrastruttura di calcolo, ma la partnership con Microsoft Research suggerisce l’impiego di LLM su cloud. Quando però si lavora con immagini di risonanza magnetica funzionale, dati personali e potenzialmente rivelatori di condizioni cliniche, entrano in gioco regolamenti come il GDPR. In tali scenari, l’inference self-hosted su hardware on-premise diventa cruciale per garantire la sovranità dei dati. Un deployment locale riduce inoltre la latenza nei cicli iterativi di generazione e test, con potenziali vantaggi sul Total Cost of Ownership nel lungo periodo. Sebbene GCT non fornisca ricette hardware, la sua adozione su larga scala solleva interrogativi concreti su potenza di calcolo, VRAM e quantization dei modelli, temi sui quali la community di chi valuta stack on-premise per LLM potrà offrire spunti preziosi.

In definitiva, l’avvento di modelli black-box nella scienza non deve per forza coincidere con la rinuncia alle teorie comprensibili. Con il telaio giusto, i due possono avanzare assieme. E, come insegna GCT, a volte basta dare una spiegazione in poche parole per accendere – letteralmente – nuove luci nel cervello.