Valutazione del riconoscimento vocale: nuovi strumenti e dataset
ร stato presentato un nuovo approccio per la valutazione del riconoscimento vocale, focalizzato su scenari multi-reference e streaming. La ricerca introduce un algoritmo di allineamento di stringhe migliorato, capace di gestire etichettature multi-reference, inserzioni di lunghezza variabile e un allineamento delle parole piรน preciso. Questo รจ particolarmente utile per lingue non latine con una ricca formazione delle parole, e per l'analisi di discorsi lunghi o complessi.
Dataset DiverseSpeech-Ru e fine-tuning
Inoltre, รจ stato creato un nuovo set di test chiamato DiverseSpeech-Ru, contenente registrazioni in russo in-the-wild di lunga durata, con etichettature multi-reference curate. ร stato anche eseguito un relabeling multi-reference di set di test russi esistenti, studiando le dinamiche di fine-tuning sui relativi set di addestramento. I risultati mostrano che i modelli tendono ad adattarsi alle etichettature specifiche del dataset, creando un'illusione di miglioramento delle metriche.
Strumenti per lo streaming e l'allineamento visivo
Basandosi sull'allineamento delle parole migliorato, sono stati sviluppati strumenti per valutare il riconoscimento vocale in streaming e per allineare piรน trascrizioni per un confronto visivo. Vengono forniti anche wrapper uniformi per diversi modelli di riconoscimento vocale, sia offline che in streaming. Il codice sarร reso disponibile pubblicamente.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!