AI-RADAR.IT · AI-RADAR.NET · AI-RADAR.TECH

News & analisi per LLM locali, stack e hardware on-prem.

📁 LLM AI generated

VibeVoice 9B: nuovo benchmark per STT medicale open source

Pubblicato il 2026-03-27 10:12 ℹ️ LocalLLaMA 📰 Leggi l'articolo originale →

🏷️ Hardware 🏷️ LLM On-Premise 🏷️ DevOps

VibeVoice 9B: nuovo benchmark per STT medicale open source

Un'analisi comparativa ha valutato 31 modelli di trascrizione automatica del parlato (STT) su dati audio medicali, rivelando nuove prospettive sulle performance e sui requisiti hardware.

VibeVoice-ASR 9B: un nuovo punto di riferimento

Il modello VibeVoice-ASR 9B di Microsoft ha raggiunto un WER dell'8,34%, posizionandosi come leader tra le soluzioni open source. Questo risultato si avvicina alle performance di Gemini 2.5 Pro (8,15%). Tuttavia, VibeVoice 9B richiede circa 18GB di VRAM e, anche su hardware di fascia alta come H100, risulta più lento (97 secondi per file) rispetto a modelli come Parakeet (6 secondi per file).

Altri modelli valutati

Oltre a VibeVoice, sono stati valutati altri modelli, tra cui ElevenLabs Scribe v2, NVIDIA Nemotron Speech Streaming 0.6B e Voxtral Mini. Parakeet TDT 0.6B v3 si distingue per l'efficienza, raggiungendo un WER del 9,35% con soli 6 secondi per file su Apple Silicio.

Correzioni al normalizzatore di Whisper

L'analisi ha identificato e corretto alcuni bug nel normalizzatore di testo di Whisper, che causavano un aumento del WER del 2-3% su tutti i modelli. Le correzioni riguardano la gestione dell'interiezione "oh" e l'omogeneizzazione di varianti lessicali (es. ok/okay/k).

Per chi valuta deployment on-premise, esistono trade-off tra accuratezza, requisiti hardware e velocità di inference. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Takeaway AI-Radar

Un recente studio ha confrontato 31 modelli speech-to-text (STT) su audio medicale. VibeVoice-ASR 9B di Microsoft si distingue come leader open source con un tasso di errore di parola (WER) dell'8,34%, avvicinandosi alle performance di Gemini 2.5 Pro. Tuttavia, richiede notevoli risorse hardware, circa 18GB di VRAM, e risulta più lento rispetto ad alternative come Parakeet.

🤖 Chiedi all'AI di questo argomento

Vuoi approfondire? Leggi l'articolo completo dalla fonte:

📖 VAI ALLA FONTE ORIGINALE

💻 Hai bisogno di infrastruttura GPU cloud?

Per eseguire inferenza LLM, training di modelli o testare configurazioni hardware, dai un'occhiata a questa piattaforma:

Railway Infrastruttura Cloud

Piattaforma cloud moderna con deployment istantanei. Deploy da GitHub in secondi con HTTPS automatico, database e monitoring. Perfetta per web app, API e servizi di inferenza LLM.

✓ Integrazione GitHub ✓ HTTPS automatico ✓ Prezzi semplici

🔗 Questo è un link affiliato - potremmo ricevere una commissione senza costi aggiuntivi per te.

AI-RADAR NEWSLETTER

Resta aggiornato — segnali AI nella tua inbox

Digest giornaliero o settimanale delle notizie AI più importanti. 160+ lettori, zero spam.

💬 Commenti (0)

🔒 Accedi o registrati per commentare gli articoli.

Nessun commento ancora. Sii il primo a commentare!

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Guida completa per eseguire modelli AI in locale: hardware, stack e privacy.

Microsoft rilascia VibeVoice-ASR per il riconoscimento vocale

Microsoft rilascia VibeVoice-ASR per il riconoscimento vocale

Microsoft ha reso disponibile VibeVoice-ASR, un nuovo modello per il riconoscimento automatico del parlato (ASR). Il modello è accessibile tramite Hugging Face,

Il "vibe coding" di Linus Torvalds è una buona idea? Dipende

Il "vibe coding" di Linus Torvalds è una buona idea? Dipende

Linus Torvalds ha dichiarato di utilizzare l'LLM Antigravity di Google per il suo progetto personale AudioNoise. Ma il "vibe coding", ovvero lo sviluppo basato

Google approfondisce lo sviluppo del modello Gemini in un podcast

Google approfondisce lo sviluppo del modello Gemini in un podcast

L'ultimo episodio del podcast Google AI: Release Notes esplora il processo di sviluppo di Gemini, uno dei modelli di AI per la programmazione più avanzati al mo

ACE-Step-1.5: modello open source per audio generativo

ACE-Step-1.5: modello open source per audio generativo

È stato rilasciato ACE-Step-1.5, un modello open source per la generazione di audio con licenza MIT. Le sue performance si avvicinano a quelle di piattaforme co

Google lancia Gemini 3.1 Flash Live per audio più naturale

Google lancia Gemini 3.1 Flash Live per audio più naturale

Google ha annunciato la disponibilità di Gemini 3.1 Flash Live, una nuova versione del suo modello di intelligenza artificiale focalizzata sul miglioramento del

Altri articoli in LLM

SpectralQuant riduce il gap della quantization Q4_K_M al 96.5%: un salto per i modelli locali

Da Tokyo e Pechino, due nuovi tool AI che aggirano il blocco export di Anthropic

ConlangCrafter: l'AI che inventa lingue immaginarie (e potrebbe insegnarci come pensiamo)

Orthrus porta la testa a diffusione su Qwen 3.5/3.6 e Gemma 4: codice open source in arrivo

Fine-tuning Qwen: perché i modelli ottimizzati faticano a convincere

DeepSeek-V4-Pro-DSpark: il nuovo LLM open source che guarda al deployment locale

→ Vedi tutti in LLM →

AI-Radar LLM On-Premise

Guida completa per eseguire modelli AI in locale: hardware, stack, privacy e architetture di riferimento.

👥 Unisciti a 160+ appassionati di AI

Una community gratuita di sviluppatori, ingegneri e appassionati di AI — newsletter, commenti, radar settimanale.

Iscriviti gratis → Hai già un account? Accedi