Invarianza di Script nei Modelli Linguistici
Un recente studio pubblicato su arXiv indaga se le caratteristiche apprese dai modelli linguistici di grandi dimensioni (LLM) rappresentino un significato astratto o siano vincolate alla specifica forma scritta del testo. La ricerca si concentra sulla digrafia serba, una situazione in cui la lingua serba puรฒ essere scritta sia in alfabeto latino che cirillico, con una mappatura quasi perfetta tra i caratteri.
Metodologia e Risultati
I ricercatori hanno analizzato le attivazioni delle caratteristiche di Sparse Autoencoders (SAE) attraverso la famiglia di modelli Gemma (da 270 milioni a 27 miliardi di parametri). Hanno scoperto che frasi identiche in diverse scritture serbe attivano caratteristiche altamente sovrapposte, superando di gran lunga le linee di base casuali. ร interessante notare che il cambio di script causa una divergenza rappresentazionale inferiore rispetto alla parafrasi all'interno dello stesso script, suggerendo che le caratteristiche SAE danno prioritร al significato rispetto alla forma ortografica. Confronti tra script e parafrasi incrociate forniscono prove contro la memorizzazione, poichรฉ queste combinazioni raramente si verificano nei dati di addestramento, ma mostrano comunque una sostanziale sovrapposizione di caratteristiche. Questa invarianza di script si rafforza con la scala del modello.
Implicazioni
I risultati suggeriscono che le caratteristiche SAE possono catturare la semantica a un livello di astrazione superiore alla tokenizzazione superficiale. Lo studio propone la digrafia serba come paradigma di valutazione generale per sondare l'astrazione delle rappresentazioni apprese. Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare queste opzioni.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!