Adattamento dell'Accento ASR con Selezione Dati Multimodale

I sistemi di riconoscimento automatico del parlato (ASR) spesso vedono degradate le proprie prestazioni quando devono elaborare accenti diversi da quelli su cui sono stati addestrati. L'adattamento a nuovi accenti richiede tipicamente una grande quantitร  di dati etichettati, il che puรฒ risultare costoso e dispendioso in termini di tempo.

Un nuovo studio propone una pipeline di selezione dati senza riferimenti, guidata dalla coerenza multimodale, per l'adattamento dell'accento nei sistemi ASR. Questo approccio mira a superare i limiti delle euristiche di selezione basate sul testo, che possono privilegiare ipotesi fluenti ma acusticamente non corrispondenti, portando a un'amplificazione degli errori durante il fine-tuning.

La pipeline inizia con una fase di preselezione mirata, basata sull'informazione mutua submodulare, per migliorare la rilevanza delle query e ridurre il carico computazionale. Successivamente, genera trascrizioni multiple per ogni enunciato tramite decodifica basata sulla perturbazione e valuta ciascuna ipotesi utilizzando due segnali senza riferimenti: l'allineamento speech-to-text in uno spazio di embedding condiviso e il word error rate (WER) previsto. Una semplice regola di selezione basata sui percentili trattiene le pseudo-etichette affidabili per il fine-tuning, scartando al contempo gli enunciati rumorosi.

I risultati mostrano che, in un contesto in-domain, la selezione di circa 1.500 enunciati da un pool di 30.000 raggiunge un WER del 10,91%, un valore vicino al 10,45% ottenuto utilizzando 30.000 etichette supervisionate. In un contesto cross-domain con un pool di candidati non corrispondenti, i sottoinsiemi filtrati per coerenza evitano il degrado causato dalle pseudo-etichette non filtrate in presenza di un forte cambiamento di accento. Esperimenti su una backbone ASR piรน robusta confermano ulteriormente i vantaggi rispetto al campionamento casuale e alle baseline di selezione recenti.