Qwen3-TTS rappresenta un notevole passo avanti nella sintesi vocale locale. Questa soluzione open source offre un'alternativa a ElevenLabs e OpenAI, eseguibile direttamente sull'hardware dell'utente.
Caratteristiche principali
- Velocità: Latenza end-to-end di circa 97ms per lo streaming.
- Controllo vocale naturale: Possibilità di impartire istruzioni in linguaggio naturale per modulare il tono e l'emozione della voce.
- Clonazione vocale: Clonazione della voce a partire da un clip di riferimento di soli 3 secondi.
- Compatibilità OpenAI: Funziona nativamente con il client Python di OpenAI, richiedendo solo la modifica dell'URL di base.
- Multilingue: Supporta più di 10 lingue, tra cui italiano, inglese, giapponese e tedesco.
Dettagli tecnici
Qwen3-TTS utilizza una nuova architettura ibrida dual-track e il tokenizer Qwen3-TTS-Tokenizer-12Hz per la compressione acustica. Sono disponibili versioni da 0.6B (veloce e leggera) e 1.7B (alta fedeltà). Supporta FlashAttention 2 per ridurre l'utilizzo della memoria.
La bassa latenza rende la conversazione vocale in tempo reale più realistica, aprendo nuove possibilità per l'integrazione in agenti LLM locali.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!