SoproTTS v1.5: clonazione vocale zero-shot con soli 100 dollari

Pubblicato il 2026-02-05 22:06 ℹ️ LocalLLaMA 📰 Leggi l'articolo originale →

SoproTTS, un progetto collaterale, ha rilasciato la versione 1.5 del suo modello text-to-speech (TTS). Questo modello da 135 milioni di parametri è stato addestrato con una spesa di circa 100 dollari utilizzando una singola GPU.

Performance

SoproTTS v1.5 vanta le seguenti caratteristiche:

Latenza di streaming TTFA di 250 ms
RTF (Real-Time Factor) di 0.05 (circa 20× in tempo reale) su CPU
Clonazione vocale zero-shot

Il modello, pur non essendo perfetto, rappresenta un miglioramento rispetto alle versioni precedenti, offrendo dimensioni ridotte, maggiore velocità e stabilità. Il codice di addestramento sarà disponibile in futuro.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Takeaway AI-Radar

SoproTTS v1.5 è un modello TTS (text-to-speech) da 135 milioni di parametri che offre clonazione vocale zero-shot. Addestrato con circa 100 dollari su una singola GPU, il modello raggiunge una velocità di esecuzione di circa 20 volte il tempo reale su un MacBook M3 base. La nuova versione v1.5 offre latenza ridotta e maggiore stabilità.

🤖 Chiedi all'AI di questo argomento

Vuoi approfondire? Leggi l'articolo completo dalla fonte:

📖 VAI ALLA FONTE ORIGINALE

💻 Hai bisogno di infrastruttura GPU cloud?

Per eseguire inferenza LLM, training di modelli o testare configurazioni hardware, dai un'occhiata a questa piattaforma:

⚡

RunPod Piattaforma GPU Cloud

Cloud GPU flessibile con fatturazione al secondo. Deploy istantaneo con supporto Docker, auto-scaling e ampia selezione di GPU da RTX 4090 a H100.

✓ Nessun vincolo ✓ Deploy istantaneo ✓ Pronto produzione

🔗 Questo è un link affiliato - potremmo ricevere una commissione senza costi aggiuntivi per te.