Introduzione

Il dataset di riconoscimento della voce automatico Loquacious รจ stato pubblicato recentemente e si presenta come un sostituto per i dataset estesati di riconoscimento della voce inglesi come LibriSpeech o TED-Lium. L'obiettivo principale del dataset รจ quello di fornire divisi di allenamento e test ben definiti in diversi domini acustici e linguistici, con una licenza aperta adatto sia alla ricerca accademica che all'industria.

Nuove risorse per il datasets Loquacious

Per promuovere ulteriormente la benchmarking e l'utilizzabilitร  di questo nuovo dataset, abbiamo presentato ulteriori risorse in forma di modelli di linguaggio n-grammici (LMs), un modello G2P (Grapheme-to-Phoneme) e lessicografie di pronuncia, con accesso aperto e pubblico. Utilizzando queste nuove risorse abbiamo presentato risultati sperimentali su una vasta gamma di architetture di riconoscimento della voce automatico con diverse unitร  etichette e topologie.

Risultati iniziali e applicabilitร 

I risultati iniziali mostrano che il dataset Loquacious offre un caso di studio prezioso per una varietร  di sfide comuni nel riconoscimento della voce automatica.