Valutazione del riconoscimento vocale: nuovi strumenti e dataset

รˆ stato presentato un nuovo approccio per la valutazione del riconoscimento vocale, focalizzato su scenari multi-reference e streaming. La ricerca introduce un algoritmo di allineamento di stringhe migliorato, capace di gestire etichettature multi-reference, inserzioni di lunghezza variabile e un allineamento delle parole piรน preciso. Questo รจ particolarmente utile per lingue non latine con una ricca formazione delle parole, e per l'analisi di discorsi lunghi o complessi.

Dataset DiverseSpeech-Ru e fine-tuning

Inoltre, รจ stato creato un nuovo set di test chiamato DiverseSpeech-Ru, contenente registrazioni in russo in-the-wild di lunga durata, con etichettature multi-reference curate. รˆ stato anche eseguito un relabeling multi-reference di set di test russi esistenti, studiando le dinamiche di fine-tuning sui relativi set di addestramento. I risultati mostrano che i modelli tendono ad adattarsi alle etichettature specifiche del dataset, creando un'illusione di miglioramento delle metriche.

Strumenti per lo streaming e l'allineamento visivo

Basandosi sull'allineamento delle parole migliorato, sono stati sviluppati strumenti per valutare il riconoscimento vocale in streaming e per allineare piรน trascrizioni per un confronto visivo. Vengono forniti anche wrapper uniformi per diversi modelli di riconoscimento vocale, sia offline che in streaming. Il codice sarร  reso disponibile pubblicamente.