Mistral AI ha annunciato Voxtral TTS, un modello text-to-speech (TTS) con 3 miliardi di parametri, rilasciato con pesi open source. Secondo Mistral, Voxtral TTS supera ElevenLabs Flash v2.5 nei test di preferenza umana.
Caratteristiche Tecniche
Il modello Voxtral TTS è progettato per essere efficiente, con un footprint di memoria di circa 3 GB di RAM. Questo lo rende potenzialmente adatto per l'esecuzione su hardware con risorse limitate. Il modello vanta un time-to-first-audio di 90 millisecondi e supporta nove lingue diverse.
Rilevanza
Il rilascio di un modello TTS open source con prestazioni dichiarate superiori a soluzioni proprietarie rappresenta un'opzione interessante per sviluppatori e aziende che cercano soluzioni di sintesi vocale efficienti e personalizzabili. Per chi valuta deployment on-premise, esistono trade-off da considerare, e AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!