BYOL: LLM multilingue potenziati per tutte le lingue

I modelli linguistici di grandi dimensioni (LLM) mostrano capacitร  multilingue, ma sono limitati dallo squilibrio nelle risorse linguistiche globali. Un nuovo studio introduce "Bring Your Own Language" (BYOL), un framework per lo sviluppo di LLM su misura per l'impronta digitale di ogni lingua.

BYOL classifica le lingue in quattro livelli (Estremamente Basse, Basse, Medie, Alte) utilizzando corpora web curati e seleziona il percorso di integrazione appropriato. Per le lingue a basse risorse, BYOL propone una pipeline di perfezionamento ed espansione dei dati che combina pulizia del corpus, generazione di testo sintetico, pretraining continuo e supervised finetuning.

Applicato a chichewa e maori, questo approccio ha prodotto LLM specifici per lingua che hanno ottenuto un miglioramento medio di circa il 12% rispetto a solide baseline multilingue su 12 benchmark, preservando al contempo le capacitร  in inglese e multilingue tramite weight-space model merging. Per le lingue a risorse estremamente basse, BYOL introduce un percorso di inclusione mediato dalla traduzione, dimostrando sull'inuktitut che un sistema di traduzione automatica su misura migliora una baseline commerciale di 4 BLEU, consentendo l'accesso a LLM ad alta precisione quando la modellazione diretta della lingua non รจ fattibile.

Sono state rilasciate versioni tradotte da persone del benchmark Global MMLU-Lite in chichewa, maori e inuktitut. Il codice e i modelli sono disponibili pubblicamente.