AI-RADAR.IT · AI-RADAR.NET · AI-RADAR.TECH

News & analisi per LLM locali, stack e hardware on-prem.

📁 LLM AI generated

Qwen3-ASR: modelli open source per riconoscimento vocale multilingue

Pubblicato il 2026-01-29 15:01 ℹ️ LocalLLaMA 📰 Leggi l'articolo originale →

🏷️ LLM On-Premise 🏷️ Fine-Tuning 🏷️ DevOps

Qwen3-ASR: modelli open source per riconoscimento vocale multilingue

Qwen3-ASR: Riconoscimento vocale open source

La famiglia di modelli Qwen3-ASR, sviluppata da Qwen, offre funzionalità di riconoscimento vocale (ASR) e identificazione della lingua per un totale di 52 idiomi, tra lingue e dialetti. I modelli, disponibili in due varianti (1.7B e 0.6B parametri), si basano sul modello fondazionale Qwen3-Omni e sono addestrati su un vasto dataset di parlato.

Caratteristiche principali

All-in-one: Supporto per l'identificazione della lingua e il riconoscimento vocale in 30 lingue e 22 dialetti cinesi, oltre a vari accenti inglesi.
Prestazioni e velocità: Il modello Qwen3-ASR-1.7B offre un'elevata qualità di riconoscimento anche in ambienti acustici complessi. La versione da 0.6B privilegia l'efficienza, raggiungendo una velocità di elaborazione di 2000 trascrizioni simultanee con una concorrenza di 128.
Allineamento forzato: Qwen3-ForcedAligner-0.6B permette di predire i timestamp per unità arbitrarie all'interno di spezzoni audio fino a 5 minuti in 11 lingue.
Toolkit di inference completo: Oltre ai pesi e all'architettura dei modelli, viene fornito un framework di inference che supporta l'inference batch basata su vLLM, il serving asincrono, lo streaming e la predizione dei timestamp.

Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Takeaway AI-Radar

La famiglia Qwen3-ASR include modelli da 1.7B e 0.6B parametri, capaci di identificare la lingua e trascrivere l'audio in 52 lingue e dialetti. Il modello più grande raggiunge performance paragonabili a quelle di API commerciali proprietarie, offrendo un'alternativa open source valida per applicazioni di riconoscimento vocale.

🤖 Chiedi all'AI di questo argomento

Vuoi approfondire? Leggi l'articolo completo dalla fonte:

📖 VAI ALLA FONTE ORIGINALE

💻 Hai bisogno di infrastruttura GPU cloud?

Per eseguire inferenza LLM, training di modelli o testare configurazioni hardware, dai un'occhiata a questa piattaforma:

RunPod Piattaforma GPU Cloud

Cloud GPU flessibile con fatturazione al secondo. Deploy istantaneo con supporto Docker, auto-scaling e ampia selezione di GPU da RTX 4090 a H100.

✓ Nessun vincolo ✓ Deploy istantaneo ✓ Pronto produzione

🔗 Questo è un link affiliato - potremmo ricevere una commissione senza costi aggiuntivi per te.

AI-RADAR NEWSLETTER

Resta aggiornato — segnali AI nella tua inbox

Digest giornaliero o settimanale delle notizie AI più importanti. 160+ lettori, zero spam.

💬 Commenti (0)

🔒 Accedi o registrati per commentare gli articoli.

Nessun commento ancora. Sii il primo a commentare!

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Guida completa per eseguire modelli AI in locale: hardware, stack e privacy.

Qwen3-TTS: la famiglia di modelli open source per la sintesi vocale

Qwen3-TTS: la famiglia di modelli open source per la sintesi vocale

Qwen ha rilasciato in open source l'intera famiglia di modelli Qwen3-TTS, che include VoiceDesign, CustomVoice e Base. Sono disponibili cinque modelli in due di

Qwen3: Supporto Audio e Visione per i Modelli Omni e ASR in Formato GGUF

Qwen3: Supporto Audio e Visione per i Modelli Omni e ASR in Formato GGUF

Il supporto per l'input audio è ora disponibile per i modelli Qwen3-Omni-MoE e Qwen3-ASR, con il modello Omni che integra anche capacità di visione. Questa novi

Home Assistant locale con Qwen3 su RTX 5060 Ti

Home Assistant locale con Qwen3 su RTX 5060 Ti

Un progetto open source dimostra un assistente vocale per la domotica completamente locale, basato su modelli Qwen3 per ASR, LLM e TTS. Il sistema è eseguito su

Qwen3 TTS: nuovo modello text-to-speech open source

Qwen3 TTS: nuovo modello text-to-speech open source

È stato rilasciato Qwen3 TTS, un nuovo modello text-to-speech (TTS) open source. Il progetto è disponibile su GitHub e Hugging Face, offrendo agli sviluppatori

Qwen3: voice embedding per clonare e modificare voci

Qwen3: voice embedding per clonare e modificare voci

Il modello Qwen3 Text-to-Speech (TTS) utilizza voice embedding per la clonazione vocale. La voce viene trasformata in un vettore (1024 o 2048 dimensioni per la

Altri articoli in LLM

TabFM di Google: classificazione e regressione tabulare senza addestramento

Longcat 2: quantization INT8 e FP8 per il deployment on-premise

Perché l’AI ha bisogno di un glossario (e cosa c’entra il deployment on-premise)

Smartschool e l’AI per i test d’ammissione: perché insegnare è più difficile che rispondere

Mistral rilascia Leanstral 1.5: verifica formale con 6 miliardi di parametri attivi

DeepSeek annuncia DSpark: un salto di velocità per l’inference degli LLM

→ Vedi tutti in LLM →

AI-Radar LLM On-Premise

Guida completa per eseguire modelli AI in locale: hardware, stack, privacy e architetture di riferimento.

👥 Unisciti a 160+ appassionati di AI

Una community gratuita di sviluppatori, ingegneri e appassionati di AI — newsletter, commenti, radar settimanale.

Iscriviti gratis → Hai già un account? Accedi