Voice embedding in Qwen3

Qwen3 introduce una funzionalitร  di voice embedding nel suo modello Text-to-Speech (TTS), aprendo nuove possibilitร  nella clonazione e manipolazione vocale. Il sistema trasforma una voce in un vettore di 1024 dimensioni (o 2048 per il modello da 1.7 miliardi di parametri), consentendo di ricreare la voce basandosi unicamente su questo vettore.

Manipolazione vocale tramite matematica

L'aspetto piรน interessante รจ la possibilitร  di modificare le voci tramite operazioni matematiche. Si possono combinare voci diverse, alterare il genere o il tono, e persino creare uno spazio emozionale. Questa tecnica abilita anche la ricerca semantica vocale.

Implementazione e risorse

Il modello di voice embedding รจ un encoder di dimensioni ridotte, con pochi milioni di parametri. รˆ stato reso disponibile in versione standalone, con modelli ONNX ottimizzati per l'inference web e front-end. L'inference tramite voice embedding รจ supportata in fork specifici di vLLM.