Qwen3-TTS rappresenta un notevole passo avanti nella sintesi vocale locale. Questa soluzione open source offre un'alternativa a ElevenLabs e OpenAI, eseguibile direttamente sull'hardware dell'utente.

Caratteristiche principali

  • Velocità: Latenza end-to-end di circa 97ms per lo streaming.
  • Controllo vocale naturale: Possibilità di impartire istruzioni in linguaggio naturale per modulare il tono e l'emozione della voce.
  • Clonazione vocale: Clonazione della voce a partire da un clip di riferimento di soli 3 secondi.
  • Compatibilità OpenAI: Funziona nativamente con il client Python di OpenAI, richiedendo solo la modifica dell'URL di base.
  • Multilingue: Supporta più di 10 lingue, tra cui italiano, inglese, giapponese e tedesco.

Dettagli tecnici

Qwen3-TTS utilizza una nuova architettura ibrida dual-track e il tokenizer Qwen3-TTS-Tokenizer-12Hz per la compressione acustica. Sono disponibili versioni da 0.6B (veloce e leggera) e 1.7B (alta fedeltà). Supporta FlashAttention 2 per ridurre l'utilizzo della memoria.

La bassa latenza rende la conversazione vocale in tempo reale più realistica, aprendo nuove possibilità per l'integrazione in agenti LLM locali.