SoproTTS, un progetto collaterale, ha rilasciato la versione 1.5 del suo modello text-to-speech (TTS). Questo modello da 135 milioni di parametri è stato addestrato con una spesa di circa 100 dollari utilizzando una singola GPU.

Performance

SoproTTS v1.5 vanta le seguenti caratteristiche:

  • Latenza di streaming TTFA di 250 ms
  • RTF (Real-Time Factor) di 0.05 (circa 20× in tempo reale) su CPU
  • Clonazione vocale zero-shot

Il modello, pur non essendo perfetto, rappresenta un miglioramento rispetto alle versioni precedenti, offrendo dimensioni ridotte, maggiore velocità e stabilità. Il codice di addestramento sarà disponibile in futuro.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.