Riconoscimento vocale multilingue: una questione di famiglia

I sistemi di riconoscimento automatico del parlato (ASR) basati su modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni elevate con risorse limitate, collegando un encoder vocale pre-addestrato a un LLM tramite un connettore leggero. Una nuova ricerca si concentra sull'ottimizzazione di questi connettori in contesti multilingue.

Condivisione di connettori basata su famiglie linguistiche

La ricerca propone una strategia di condivisione dei connettori basata sull'appartenenza a famiglie linguistiche. Invece di addestrare un connettore separato per ogni lingua, si utilizza un singolo connettore per famiglia linguistica. Questo approccio riduce il numero di parametri necessari e migliora la generalizzazione tra diversi domini. I risultati mostrano che questa strategia รจ efficace su due LLM multilingue e due corpora reali, comprendenti sia parlato curato che crowdsourcing.

Implicazioni per il deployment

La capacitร  di ridurre il numero di parametri e migliorare la generalizzazione rende questa strategia particolarmente interessante per il deployment di sistemi ASR multilingue in ambienti con risorse limitate. Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente; AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.