Qwen3-ASR: Riconoscimento vocale open source
La famiglia di modelli Qwen3-ASR, sviluppata da Qwen, offre funzionalitร di riconoscimento vocale (ASR) e identificazione della lingua per un totale di 52 idiomi, tra lingue e dialetti. I modelli, disponibili in due varianti (1.7B e 0.6B parametri), si basano sul modello fondazionale Qwen3-Omni e sono addestrati su un vasto dataset di parlato.
Caratteristiche principali
- All-in-one: Supporto per l'identificazione della lingua e il riconoscimento vocale in 30 lingue e 22 dialetti cinesi, oltre a vari accenti inglesi.
- Prestazioni e velocitร : Il modello Qwen3-ASR-1.7B offre un'elevata qualitร di riconoscimento anche in ambienti acustici complessi. La versione da 0.6B privilegia l'efficienza, raggiungendo una velocitร di elaborazione di 2000 trascrizioni simultanee con una concorrenza di 128.
- Allineamento forzato: Qwen3-ForcedAligner-0.6B permette di predire i timestamp per unitร arbitrarie all'interno di spezzoni audio fino a 5 minuti in 11 lingue.
- Toolkit di inference completo: Oltre ai pesi e all'architettura dei modelli, viene fornito un framework di inference che supporta l'inference batch basata su vLLM, il serving asincrono, lo streaming e la predizione dei timestamp.
Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!