Qwen3-TTS Studio: Voce clonata e podcasting in locale
Un tecnico ha creato Qwen3-TTS Studio, un'interfaccia utente per il modello Qwen3-TTS, focalizzata sulla clonazione vocale e la generazione automatica di podcast. L'applicazione consente di clonare una voce a partire da un campione audio di soli 3 secondi.
Funzionalitร principali:
- Clonazione vocale con un campione audio di 3 secondi.
- Controllo granulare dei parametri di sintesi (temperatura, top-k, top-p).
- Generazione automatica di podcast a partire da un topic: l'AI scrive lo script, assegna le voci e sintetizza l'audio.
- Supporto per 10 lingue (coreano, inglese, cinese, giapponese, ecc.).
Attualmente, il sistema utilizza gpt5.2 per la generazione degli script, ma l'architettura รจ modulare e permette di sostituirlo con LLM locali come Qwen o Llama.
La sintesi vocale viene eseguita interamente in locale, sfruttando macOS MPS o Linux CUDA, eliminando la necessitร di chiamate API esterne e riducendo i costi.
Il codice sorgente รจ disponibile su GitHub.
Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!