WearVox: Valutare gli assistenti vocali del futuro

I dispositivi wearable, come gli occhiali a realtà aumentata, stanno trasformando gli assistenti vocali in collaboratori sempre disponibili e utilizzabili a mani libere. Tuttavia, integrarsi nella vita quotidiana pone nuove sfide, come la gestione dell'audio egocentrico influenzato da movimento e rumore, le micro-interazioni rapide e la necessità di distinguere i comandi vocali dal brusio di fondo.

Per colmare questa lacuna, è stato presentato WearVox, il primo benchmark progettato per valutare rigorosamente gli assistenti vocali in scenari realistici su dispositivi indossabili. WearVox comprende 3.842 registrazioni audio multicanale, raccolte tramite occhiali AI in cinque attività diverse: Search-Grounded QA, Closed-Book QA, Side-Talk Rejection, Tool Calling e Speech Translation. Le registrazioni coprono un'ampia gamma di ambienti interni ed esterni e diverse condizioni acustiche.

Risultati e implicazioni

I test iniziali su modelli di linguaggio di grandi dimensioni (LLM) vocali, sia proprietari che open-source, hanno mostrato che la maggior parte dei modelli in tempo reale raggiunge accuratezze comprese tra il 29% e il 59% su WearVox. Le prestazioni si degradano notevolmente in ambienti esterni rumorosi, sottolineando la difficoltà del benchmark. Uno studio ha dimostrato che l'utilizzo di input audio multicanale migliora significativamente la robustezza del modello al rumore ambientale e la capacità di distinguere tra comandi diretti e conversazioni di fondo.

Questi risultati evidenziano l'importanza cruciale degli indizi audio spaziali per gli assistenti vocali sensibili al contesto e stabiliscono WearVox come un banco di prova completo per far progredire la ricerca sull'intelligenza artificiale vocale applicata ai dispositivi wearable.