Un'analisi comparativa ha valutato 31 modelli di trascrizione automatica del parlato (STT) su dati audio medicali, rivelando nuove prospettive sulle performance e sui requisiti hardware.
VibeVoice-ASR 9B: un nuovo punto di riferimento
Il modello VibeVoice-ASR 9B di Microsoft ha raggiunto un WER dell'8,34%, posizionandosi come leader tra le soluzioni open source. Questo risultato si avvicina alle performance di Gemini 2.5 Pro (8,15%). Tuttavia, VibeVoice 9B richiede circa 18GB di VRAM e, anche su hardware di fascia alta come H100, risulta piรน lento (97 secondi per file) rispetto a modelli come Parakeet (6 secondi per file).
Altri modelli valutati
Oltre a VibeVoice, sono stati valutati altri modelli, tra cui ElevenLabs Scribe v2, NVIDIA Nemotron Speech Streaming 0.6B e Voxtral Mini. Parakeet TDT 0.6B v3 si distingue per l'efficienza, raggiungendo un WER del 9,35% con soli 6 secondi per file su Apple Silicio.
Correzioni al normalizzatore di Whisper
L'analisi ha identificato e corretto alcuni bug nel normalizzatore di testo di Whisper, che causavano un aumento del WER del 2-3% su tutti i modelli. Le correzioni riguardano la gestione dell'interiezione "oh" e l'omogeneizzazione di varianti lessicali (es. ok/okay/k).
Per chi valuta deployment on-premise, esistono trade-off tra accuratezza, requisiti hardware e velocitร di inference. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!