LLM e rappresentazioni geometriche: una nuova prospettiva
Una recente ricerca pubblicata su r/LocalLLaMA esplora come i modelli linguistici di grandi dimensioni (LLM) rappresentano internamente le informazioni. I risultati suggeriscono che, a un livello profondo, questi modelli potrebbero non "pensare" in termini di linguaggio, ma piuttosto attraverso una sorta di geometria concettuale.
L'esperimento ha coinvolto quattro modelli diversi: Qwen3.5-27B, MiniMax M2.5, GLM-4.7 e GPT-OSS-120B. ร stato riscontrato che tutti e quattro mostrano lo stesso comportamento: le frasi che descrivono lo stesso concetto (ad esempio, la fotosintesi) in lingue diverse (inglese, cinese, arabo, russo, giapponese, coreano, hindi e francese) sono piรน vicine tra loro nello spazio interno del modello rispetto a frasi che descrivono concetti diversi nella stessa lingua.
Convergenza multimodale
Ancora piรน interessante รจ la scoperta che descrizioni in linguaggio naturale, funzioni Python (con variabili a una sola lettera) ed equazioni LaTeX dello stesso concetto (ad esempio, l'energia cinetica: ยฝmvยฒ) convergono nella stessa regione dello spazio interno del modello. Questo suggerisce che la rappresentazione universale non รจ solo indipendente dalla lingua, ma anche dalla modalitร di input.
Questi risultati, replicati su architetture transformer dense e MoE (Mixture of Experts) di diverse organizzazioni, suggeriscono che si tratti di una soluzione convergente e non di un artefatto specifico di un modello o di un training particolare. Per chi valuta deployment on-premise, esistono trade-off che AI-RADAR analizza in dettaglio nella sezione /llm-onpremise.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!