Voice embedding in Qwen3

Qwen3 introduce una funzionalità di voice embedding nel suo modello Text-to-Speech (TTS), aprendo nuove possibilità nella clonazione e manipolazione vocale. Il sistema trasforma una voce in un vettore di 1024 dimensioni (o 2048 per il modello da 1.7 miliardi di parametri), consentendo di ricreare la voce basandosi unicamente su questo vettore.

Manipolazione vocale tramite matematica

L'aspetto più interessante è la possibilità di modificare le voci tramite operazioni matematiche. Si possono combinare voci diverse, alterare il genere o il tono, e persino creare uno spazio emozionale. Questa tecnica abilita anche la ricerca semantica vocale.

Implementazione e risorse

Il modello di voice embedding è un encoder di dimensioni ridotte, con pochi milioni di parametri. È stato reso disponibile in versione standalone, con modelli ONNX ottimizzati per l'inference web e front-end. L'inference tramite voice embedding è supportata in fork specifici di vLLM.