LLM: dinamiche interne e regimi funzionali

Un recente studio pubblicato su arXiv ha analizzato le dinamiche interne dei modelli linguistici di grandi dimensioni (LLM) durante il processo di generazione del testo. La ricerca si concentra sull'organizzazione temporale di queste dinamiche, un aspetto spesso trascurato dagli approcci di interpretabilitร  piรน comuni, che tendono a privilegiare rappresentazioni statiche o interventi causali.

Neuroscienze e modelli Transformer

I ricercatori hanno tratto ispirazione dalle neuroscienze, adattando concetti come l'integrazione temporale e la metastabilitร  ai modelli transformer. Hanno sviluppato una metrica dinamica composita, calcolata a partire da serie temporali di attivazione durante la generazione autoregressiva. Questa metrica รจ stata valutata nel modello GPT-2-medium in diverse condizioni: ragionamento strutturato, ripetizione forzata, campionamento rumoroso ad alta temperatura, eliminazione di attention-head e iniezione di noise nei pesi.

Risultati e implicazioni

Il ragionamento strutturato ha mostrato valori della metrica costantemente piรน elevati rispetto ai regimi ripetitivi, rumorosi e perturbati. Le differenze sono risultate statisticamente significative. I risultati si sono dimostrati robusti alla selezione del layer, al subsampling del canale e ai seed casuali. Lo studio dimostra che metriche dinamiche ispirate alle neuroscienze possono caratterizzare in modo affidabile le differenze nell'organizzazione computazionale tra diversi regimi funzionali nei modelli linguistici di grandi dimensioni. Gli autori sottolineano che la metrica proposta cattura proprietร  dinamiche formali e non implica un'esperienza soggettiva.