Voice embedding in Qwen3
Qwen3 introduce una funzionalitร di voice embedding nel suo modello Text-to-Speech (TTS), aprendo nuove possibilitร nella clonazione e manipolazione vocale. Il sistema trasforma una voce in un vettore di 1024 dimensioni (o 2048 per il modello da 1.7 miliardi di parametri), consentendo di ricreare la voce basandosi unicamente su questo vettore.
Manipolazione vocale tramite matematica
L'aspetto piรน interessante รจ la possibilitร di modificare le voci tramite operazioni matematiche. Si possono combinare voci diverse, alterare il genere o il tono, e persino creare uno spazio emozionale. Questa tecnica abilita anche la ricerca semantica vocale.
Implementazione e risorse
Il modello di voice embedding รจ un encoder di dimensioni ridotte, con pochi milioni di parametri. ร stato reso disponibile in versione standalone, con modelli ONNX ottimizzati per l'inference web e front-end. L'inference tramite voice embedding รจ supportata in fork specifici di vLLM.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!