Qwen3-ASR: Riconoscimento vocale open source

La famiglia di modelli Qwen3-ASR, sviluppata da Qwen, offre funzionalitร  di riconoscimento vocale (ASR) e identificazione della lingua per un totale di 52 idiomi, tra lingue e dialetti. I modelli, disponibili in due varianti (1.7B e 0.6B parametri), si basano sul modello fondazionale Qwen3-Omni e sono addestrati su un vasto dataset di parlato.

Caratteristiche principali

  • All-in-one: Supporto per l'identificazione della lingua e il riconoscimento vocale in 30 lingue e 22 dialetti cinesi, oltre a vari accenti inglesi.
  • Prestazioni e velocitร : Il modello Qwen3-ASR-1.7B offre un'elevata qualitร  di riconoscimento anche in ambienti acustici complessi. La versione da 0.6B privilegia l'efficienza, raggiungendo una velocitร  di elaborazione di 2000 trascrizioni simultanee con una concorrenza di 128.
  • Allineamento forzato: Qwen3-ForcedAligner-0.6B permette di predire i timestamp per unitร  arbitrarie all'interno di spezzoni audio fino a 5 minuti in 11 lingue.
  • Toolkit di inference completo: Oltre ai pesi e all'architettura dei modelli, viene fornito un framework di inference che supporta l'inference batch basata su vLLM, il serving asincrono, lo streaming e la predizione dei timestamp.

Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.