Dataset DemosQA per il Question Answering in greco

La recente ondata di progressi nel Natural Language Processing (NLP) e nel Deep Learning ha portato allo sviluppo di modelli linguistici di grandi dimensioni (LLM) sempre piรน performanti. Tuttavia, la ricerca si รจ concentrata principalmente sulle lingue con molte risorse, come l'inglese. Solo di recente l'attenzione si รจ spostata verso i modelli multilingue.

Questi modelli multilingue spesso mostrano una distorsione nei dati di addestramento verso un numero limitato di lingue popolari oppure si basano sul transfer learning da lingue con molte risorse a lingue con meno risorse. Questo puรฒ portare a una rappresentazione errata degli aspetti sociali, culturali e storici. Per affrontare questa sfida, sono stati sviluppati LLM monolingue per lingue con meno risorse, ma la loro efficacia rimane meno studiata rispetto alle loro controparti multilingue.

Un nuovo studio si concentra sul Question Answering (QA) in greco, contribuendo con:

  • DemosQA: un nuovo dataset costruito utilizzando domande degli utenti dei social media e risposte verificate dalla comunitร , per catturare meglio lo spirito sociale e culturale greco.
  • Un framework di valutazione LLM efficiente in termini di memoria, adattabile a diversi dataset QA e lingue.
  • Una valutazione estensiva di 11 LLM monolingue e multilingue su 6 dataset QA curati da esperti umani, utilizzando 3 diverse strategie di prompting.

Il codice e i dati sono stati rilasciati per facilitare la riproducibilitร  dei risultati.