KaniTTS2 è un modello text-to-speech (TTS) open-source progettato per applicazioni conversazionali in tempo reale. Con 400 milioni di parametri, questo modello offre funzionalità di voice cloning e supporta diverse lingue, tra cui inglese e spagnolo, con piani di espansione futura.

Specifiche Tecniche

  • Parametri: 400 milioni (BF16)
  • Frequenza di campionamento: 22kHz
  • Voice Cloning: Sì
  • VRAM richiesta: 3GB
  • Tempo di training: 6 ore su 8x H100

Un aspetto particolarmente interessante è la disponibilità del codice completo per il pre-training. Questo permette agli utenti di sviluppare modelli TTS personalizzati per lingue, accenti o domini specifici. Il modello pre-addestrato e il codice sono disponibili su Hugging Face e GitHub, sotto licenza Apache 2.0.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.