Indic-TunedLens: un nuovo approccio per l'interpretabilità dei LLM multilingue in lingue indiane

I modelli linguistici di grandi dimensioni (LLM) multilingue sono sempre più utilizzati in regioni linguisticamente diversificate come l'India. Tuttavia, la maggior parte degli strumenti di interpretabilità sono progettati principalmente per l'inglese. Questo crea problemi nell'interpretazione dei modelli quando applicati ad altre lingue.

Per affrontare questa sfida, è stato sviluppato Indic-TunedLens, un framework di interpretabilità specificamente progettato per le lingue indiane. A differenza del tradizionale Logit Lens, che decodifica direttamente le attivazioni intermedie, Indic-TunedLens adatta gli stati nascosti per ciascuna lingua di destinazione, allineandoli alle distribuzioni di output desiderate. Questo consente una decodifica più fedele delle rappresentazioni del modello.

Il framework è stato valutato su 10 lingue indiane utilizzando il benchmark MMLU, dimostrando miglioramenti significativi rispetto ai metodi di interpretabilità esistenti, in particolare per le lingue a basse risorse e morfologicamente ricche. I risultati forniscono informazioni cruciali sulla codifica semantica layer-wise dei transformer multilingue.

Il modello è disponibile su Hugging Face Spaces e il codice sorgente è accessibile su GitHub.