Isaiah Granet ha collezionato 180 no dagli investitori. La ragione? Le telefonate, dicevano, non esisteranno più entro un anno. Eppure, la sua startup Bland ha appena incassato 50 milioni di dollari in un round Series C guidato da Dell Technologies Capital, portando il totale raccolto oltre i 100 milioni, come riportato da Fortune.

La scommessa di Bland non è solo una storia di VC. La voice AI sta vivendo una seconda giovinezza grazie ai grandi modelli linguistici (LLM) e ai sistemi text-to-speech che rendono le interazioni vocali quasi indistinguibili da quelle umane. Per le aziende, questo significa poter automatizzare conversazioni complesse al telefono senza perdere il calore e la precisione di un operatore.

Voice AI e LLM: il rinascimento vocale

La tecnicia dietro la voice AI si è evoluta rapidamente. Oggi i modelli speech-to-text e text-to-speech beneficiano di architetture Transformer, le stesse che alimentano gli LLM. L'integrazione è profonda: il parlato viene trascritto in token, elaborato da un LLM per generare una risposta, e infine sintetizzato in voce. Il tutto in tempo reale, con latenze accettabili per una conversazione naturale.

Ma gestire una pipeline di questo tipo nel cloud introduce vincoli. Le chiamate telefoniche trasportano dati sensibili — informazioni personali, numeri di carte, dettagli sanitari — e la loro trasmissione a data center remoti solleva questioni di conformità. Il GDPR in Europa, e normative analoghe altrove, richiedono un controllo ferreo sulla residenza dei dati e sull'audit trail.

On-premise: la risposta alla privacy e alla latenza

Per molte imprese che operano in settori regolamentati, l'alternativa è portare la voice AI nei propri data center. L'inference on-premise, su hardware dedicato, garantisce che i dati vocali non lascino mai il perimetro aziendale. La latenza si riduce, perché il segnale vocale non deve attraversare la rete pubblica, e il costo per chiamata può diventare prevedibile, abbattendo il TCO a volumi elevati.

Tuttavia, il deployment locale ha le sue complessità. Servono GPU o acceleratori con VRAM sufficiente per eseguire modelli di dimensioni adeguate, e l'infrastruttura deve essere dimensionata per gestire picchi di chiamate simultanee. La quantization dei modelli — ad esempio da FP16 a INT8 — può aiutare a far girare l'inference su hardware più modesto, ma richiede competenze di ottimizzazione non banali.

AI-RADAR segue da vicino l'evoluzione dei framework per il serving on-premise, come vLLM o TGI, che consentono di orchestrare queste pipeline. Per chi valuta una strategia locale, esistono trade-off precisi: investimento iniziale (CapEx) più alto contro canoni cloud ricorrenti, controllo totale dei dati contro flessibilità operativa. La decisione non è mai scontata, ma la tendenza è chiara: le aziende con carichi di lavoro vocali consistenti iniziano a guardare con interesse all'hardware in-house.

Una scommessa che va oltre il capitale

Il round di Bland non prova che le telefonate siano immortali, ma che la voce resta un canale strategico. Mentre i chatbot testuali si moltiplicano, il telefono conserva un vantaggio: la familiarità universale. E se l'AI può sostenere conversazioni fluide senza tempi di attesa, il valore per l'impresa cresce.

La prossima frontiera sarà rendere questa tecnicia accessibile anche a chi non può —o non vuole— delegare le proprie conversazioni a un provider esterno. In quello scenario, avere in casa l'hardware giusto e i framework di serving adeguati farà la differenza tra adottare la voice AI e subirla passivamente.