Valutazione del riconoscimento vocale: nuovi strumenti e dataset

È stato presentato un nuovo approccio per la valutazione del riconoscimento vocale, focalizzato su scenari multi-reference e streaming. La ricerca introduce un algoritmo di allineamento di stringhe migliorato, capace di gestire etichettature multi-reference, inserzioni di lunghezza variabile e un allineamento delle parole più preciso. Questo è particolarmente utile per lingue non latine con una ricca formazione delle parole, e per l'analisi di discorsi lunghi o complessi.

Dataset DiverseSpeech-Ru e fine-tuning

Inoltre, è stato creato un nuovo set di test chiamato DiverseSpeech-Ru, contenente registrazioni in russo in-the-wild di lunga durata, con etichettature multi-reference curate. È stato anche eseguito un relabeling multi-reference di set di test russi esistenti, studiando le dinamiche di fine-tuning sui relativi set di addestramento. I risultati mostrano che i modelli tendono ad adattarsi alle etichettature specifiche del dataset, creando un'illusione di miglioramento delle metriche.

Strumenti per lo streaming e l'allineamento visivo

Basandosi sull'allineamento delle parole migliorato, sono stati sviluppati strumenti per valutare il riconoscimento vocale in streaming e per allineare più trascrizioni per un confronto visivo. Vengono forniti anche wrapper uniformi per diversi modelli di riconoscimento vocale, sia offline che in streaming. Il codice sarà reso disponibile pubblicamente.