Analisi approfondita del linguaggio Bangla: diversità e applicazioni NLP

Un nuovo studio ha analizzato in profondità la diversità lessicale e la complessità strutturale di testi in lingua Bangla, sia letterari che giornalistici. La ricerca si basa su due ampi corpora: Vacaspati (letteratura) e IndicCorp (giornali).

L'analisi ha esaminato diverse proprietà linguistiche, tra cui il rapporto type-token (TTR), il rapporto hapax legomena (HLR) e la diversità dei bigrammi. I risultati indicano che il corpus letterario, nonostante le dimensioni inferiori, presenta una ricchezza lessicale e una variazione strutturale significativamente superiori rispetto a quello giornalistico.

Impatto sui modelli di elaborazione del linguaggio naturale

Lo studio ha anche valutato come l'inclusione di dati letterari influenzi le prestazioni dei modelli NLP. L'integrazione di testi letterari con quelli giornalistici sembra migliorare le performance in vari compiti. Inoltre, è stato dimostrato che il corpus letterario aderisce più strettamente alla legge di Zipf sulla distribuzione delle parole rispetto al corpus giornalistico o a un corpus misto.

La ricerca ha anche valutato la leggibilità dei testi utilizzando gli indici Flesch e Coleman-Liau, confermando che i testi letterari sono generalmente più complessi.