Mistral AI ha annunciato Voxtral TTS, un modello text-to-speech (TTS) con 3 miliardi di parametri, rilasciato con pesi open source. Secondo Mistral, Voxtral TTS supera ElevenLabs Flash v2.5 nei test di preferenza umana.
Caratteristiche Tecniche
Il modello Voxtral TTS รจ progettato per essere efficiente, con un footprint di memoria di circa 3 GB di RAM. Questo lo rende potenzialmente adatto per l'esecuzione su hardware con risorse limitate. Il modello vanta un time-to-first-audio di 90 millisecondi e supporta nove lingue diverse.
Rilevanza
Il rilascio di un modello TTS open source con prestazioni dichiarate superiori a soluzioni proprietarie rappresenta un'opzione interessante per sviluppatori e aziende che cercano soluzioni di sintesi vocale efficienti e personalizzabili. Per chi valuta deployment on-premise, esistono trade-off da considerare, e AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!