Microsoft Research ha presentato Paza, un'iniziativa volta a promuovere la tecnicia vocale per le lingue a basse risorse. Paza include PazaBench, una classifica per il riconoscimento vocale automatico (ASR) focalizzata su lingue con scarsitร di dati, e modelli ASR Paza, ottimizzati per l'uso in contesti reali.
PazaBench: una nuova classifica ASR
PazaBench รจ la prima classifica ASR dedicata alle lingue a basse risorse, con una copertura iniziale di 39 lingue africane e 52 modelli ASR e linguistici all'avanguardia. La piattaforma aggrega dataset pubblici e provenienti dalla comunitร , facilitando la valutazione delle prestazioni dei modelli in diverse lingue e regioni.
PazaBench tiene traccia di tre metriche principali:
- Character Error Rate (CER): importante per le lingue con forme di parola complesse.
- Word Error Rate (WER): per l'accuratezza della trascrizione a livello di parola.
- RTFx (Inverse Real-Time Factor): misura la velocitร di trascrizione rispetto alla durata audio reale.
Modelli ASR Paza: sviluppati con e per le lingue keniote
I modelli ASR Paza sono costituiti da tre modelli ASR ottimizzati, basati su architetture all'avanguardia. Ogni modello รจ mirato a Swahili (una lingua a medie risorse) e a cinque lingue keniote a basse risorse: Dholuo, Kalenjin, Kikuyu, Maasai e Somali. I modelli sono stati ottimizzati utilizzando dataset pubblici e proprietari.
I modelli Paza includono:
- Paza-Phi-4-Multimodal-Instruct: un modello linguistico di nuova generazione, ottimizzato per la trascrizione in sei lingue.
- Paza-MMS-1B-All: un modello ottimizzato sul modello mms-1b-all di Meta, che migliora l'accuratezza della trascrizione mantenendo la generalizzazione cross-linguistica.
- Paza-Whisper-Large-v3-Turbo: un modello ottimizzato sul modello base whisper-large-v3-turbo di OpenAI, che offre funzionalitร ASR affidabili.
Microsoft intende espandere PazaBench oltre le lingue africane e valutare i modelli ASR all'avanguardia in un numero maggiore di lingue a basse risorse a livello globale. L'azienda sta inoltre sviluppando guide pratiche per aiutare l'ecosistema a curare dataset, ottimizzare i modelli e valutarli in condizioni reali.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!