Qwen3-TTS Studio: Voce clonata e podcasting in locale

Un tecnico ha creato Qwen3-TTS Studio, un'interfaccia utente per il modello Qwen3-TTS, focalizzata sulla clonazione vocale e la generazione automatica di podcast. L'applicazione consente di clonare una voce a partire da un campione audio di soli 3 secondi.

Funzionalitร  principali:

  • Clonazione vocale con un campione audio di 3 secondi.
  • Controllo granulare dei parametri di sintesi (temperatura, top-k, top-p).
  • Generazione automatica di podcast a partire da un topic: l'AI scrive lo script, assegna le voci e sintetizza l'audio.
  • Supporto per 10 lingue (coreano, inglese, cinese, giapponese, ecc.).

Attualmente, il sistema utilizza gpt5.2 per la generazione degli script, ma l'architettura รจ modulare e permette di sostituirlo con LLM locali come Qwen o Llama.

La sintesi vocale viene eseguita interamente in locale, sfruttando macOS MPS o Linux CUDA, eliminando la necessitร  di chiamate API esterne e riducendo i costi.

Il codice sorgente รจ disponibile su GitHub.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.