KaniTTS2 è un modello text-to-speech (TTS) open-source progettato per applicazioni conversazionali in tempo reale. Con 400 milioni di parametri, questo modello offre funzionalità di voice cloning e supporta diverse lingue, tra cui inglese e spagnolo, con piani di espansione futura.
Specifiche Tecniche
- Parametri: 400 milioni (BF16)
- Frequenza di campionamento: 22kHz
- Voice Cloning: Sì
- VRAM richiesta: 3GB
- Tempo di training: 6 ore su 8x H100
Un aspetto particolarmente interessante è la disponibilità del codice completo per il pre-training. Questo permette agli utenti di sviluppare modelli TTS personalizzati per lingue, accenti o domini specifici. Il modello pre-addestrato e il codice sono disponibili su Hugging Face e GitHub, sotto licenza Apache 2.0.
Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!