LLM e rappresentazioni geometriche: una nuova prospettiva

Una recente ricerca pubblicata su r/LocalLLaMA esplora come i modelli linguistici di grandi dimensioni (LLM) rappresentano internamente le informazioni. I risultati suggeriscono che, a un livello profondo, questi modelli potrebbero non "pensare" in termini di linguaggio, ma piuttosto attraverso una sorta di geometria concettuale.

L'esperimento ha coinvolto quattro modelli diversi: Qwen3.5-27B, MiniMax M2.5, GLM-4.7 e GPT-OSS-120B. È stato riscontrato che tutti e quattro mostrano lo stesso comportamento: le frasi che descrivono lo stesso concetto (ad esempio, la fotosintesi) in lingue diverse (inglese, cinese, arabo, russo, giapponese, coreano, hindi e francese) sono più vicine tra loro nello spazio interno del modello rispetto a frasi che descrivono concetti diversi nella stessa lingua.

Convergenza multimodale

Ancora più interessante è la scoperta che descrizioni in linguaggio naturale, funzioni Python (con variabili a una sola lettera) ed equazioni LaTeX dello stesso concetto (ad esempio, l'energia cinetica: ½mv²) convergono nella stessa regione dello spazio interno del modello. Questo suggerisce che la rappresentazione universale non è solo indipendente dalla lingua, ma anche dalla modalità di input.

Questi risultati, replicati su architetture transformer dense e MoE (Mixture of Experts) di diverse organizzazioni, suggeriscono che si tratti di una soluzione convergente e non di un artefatto specifico di un modello o di un training particolare. Per chi valuta deployment on-premise, esistono trade-off che AI-RADAR analizza in dettaglio nella sezione /llm-onpremise.