L’audio locale si fa serio: audio.cpp sforna generazione musicale e separazione stem

Quando si parla di inference locale con LLM, il nome ggml spunta subito come il cuore pulsante di progetti come llama.cpp. Ma il team dietro audio.cpp sta allargando l’orizzonte molto oltre il testo: con l’ultimo rilascio, il framework — interamente nativo in C++ e basato su ggml — abbraccia la generazione musicale, gli effetti sonori e la separazione delle sorgenti, portandosi al 75% della roadmap dichiarata.

La sfornata include modelli come ACE-Step 1.5, HeartMuLa e Stable Audio 3 nelle varianti Small e Medium per musica ed effetti. L’aspetto più interessante non è solo la varietà: HeartMuLa, prima limitato a brevi clip, ora genera circa dieci minuti di audio in un’unica esecuzione. Per chi lavora con colonne sonore o paesaggi sonori, avere uno strumento del genere in esecuzione locale, senza chiamate API e senza dati in uscita, cambia la partita.

Il banco di prova è presto detto: generare 600 secondi di musica con ACE-Step Turbo ha richiesto 60,16 secondi su audio.cpp, con un Real-Time Factor di 0,100 (quasi 10× più veloce del tempo reale). Lo stesso test in Python si è fermato a 88,52 secondi, con un RTF di 0,148. Un margine che, moltiplicato per lunghe sessioni o carichi server, diventa sostanza. Ma gli sviluppatori non fanno sconti: HTDemucs, per la separazione degli stem, è ancora più lento del percorso Python, mentre i warm run di Stable Audio danno risultati misti. “Non sto cercando di nasconderlo”, scrive il manutentore nel post su Reddit, spiegando che la priorità ora è portare i modelli nel framework condiviso, per poi stringere sulle ottimizzazioni specifiche.

Un dettaglio che farà piacere a chi ragiona in ottica di server e deployment prolungato: è stata introdotta una modalità “mem_saver”. Non riduce il picco assoluto di VRAM durante l’inference, ma abbassa la memoria residente dopo il completamento del task, senza impattare significativamente sulla velocità. Un accorgimento da infrastruttura, non da demo, che segnala la maturità del progetto.

Per i lettori di AI-RADAR, il rilascio ha un valore che va oltre l’audio. Dimostra che l’ecosistema ggml non è più confinato al linguaggio parlato o ai chatbot. Avere un unico percorso nativo in C++ per sintesi vocale, trascrizione, separazione e ora musica significa poter costruire pipeline multimediali self-hosted senza dover ricorrere a container Python o a servizi cloud. Resta il solito trade-off: non tutto è ancora più veloce del reference in Python, ma la fase di consolidamento è quasi completata. Chi valuta un deployment on-premise sa che il Total Cost of Ownership passa anche dalla capacità di tenere i dati in casa e di scalare su hardware proprietario — e audio.cpp sembra muoversi proprio in quella direzione.

L’audio locale si fa serio: audio.cpp sforna generazione musicale e separazione stem

💻 Hai bisogno di infrastruttura GPU cloud?

Resta aggiornato — segnali AI nella tua inbox

💬 Commenti (0)

🔍 Continua a esplorare

Altri articoli in Frameworks

👥 Unisciti a 160+ appassionati di AI