I sistemi AI vocali sotto attacco: la minaccia degli "AudioHijack"
L'integrazione di strumenti vocali e audio basati sull'intelligenza artificiale nella vita quotidiana è ormai pervasiva, dai digital assistant agli smart speaker, fino ai bot per il servizio clienti. I progressi nei Large Audio-Language Models (LALMs), capaci sia di analizzare che di generare audio, hanno aperto nuove frontiere, permettendo il controllo di dispositivi tramite comandi vocali, la trascrizione automatica di riunioni o l'identificazione di brani musicali. Questi modelli sono sempre più dotati della capacità di interagire con servizi esterni e di operare altre applicazioni e strumenti.
Tuttavia, una nuova ricerca rivela una vulnerabilità critica: questi strumenti possono essere "dirottati" attraverso suoni impercettibili incorporati nell'audio, costringendoli a eseguire comandi non autorizzati all'insaputa dell'utente. Lo studio, che sarà presentato al prossimo IEEE Symposium on Security and Privacy a San Francisco, dimostra come una clip audio modificata, non rilevabile dall'orecchio umano, possa manipolare il comportamento di un modello con un tasso di successo medio che varia dal 79 al 96 percento. Queste clip sono progettate per funzionare indipendentemente dalle istruzioni fornite dall'utente, rendendole riutilizzabili per attacchi multipli sullo stesso modello.
Come funzionano gli attacchi audio avversari
La ricerca si basa su anni di studi sugli "esempi audio avversari", ovvero audio manipolati per ingannare i modelli di machine learning. Mentre i lavori precedenti si concentravano principalmente sull'induzione di previsioni errate in modelli che eseguono compiti unidirezionali (come il riconoscimento vocale o la classificazione audio), questo nuovo studio si distingue per il suo focus sui modelli generativi, capaci di produrre risposte e intraprendere azioni. La tecnica, denominata AudioHijack, sfrutta una falla di sicurezza critica nella progettazione dei LALMs: poiché questi modelli possono ricevere istruzioni in formato audio, è possibile nascondere istruzioni malevole in clip manipolate per elicitare una vasta gamma di comportamenti indesiderati.
A differenza di molti attacchi precedenti ai modelli generativi, che richiedevano all'attaccante il controllo completo sia dell'input audio finale che delle istruzioni originali fornite al modello (agendo di fatto come l'utente), AudioHijack manipola solo i dati audio elaborati dal modello. Questo permette di attaccare un modello mentre è in uso da parte di un altro utente. Esempi concreti includono l'occultamento di istruzioni malevole in video online, clip musicali o note vocali che gli utenti interrogano un'AI, o la trasmissione di audio malevolo durante una chiamata Zoom che viene poi caricata su servizi di trascrizione AI. Il team di ricerca ha anche dimostrato la capacità di iniettare audio malevolo in una chat vocale live con un'AI in tempo reale.
Implicazioni per la sicurezza e i deployment on-premise
Gli autori hanno testato l'approccio su 13 modelli open source di primo piano, inclusi servizi vocali AI commerciali di Microsoft e Mistral. I risultati hanno mostrato la capacità di indurre i modelli a eseguire ricerche web sensibili, scaricare file da fonti controllate dall'attaccante e inviare email contenenti dati utente. Meng Chen, autore principale e dottorando presso la Zhejiang University in Cina, sottolinea che "richiede solo mezz'ora per addestrare questo segnale e, poiché è agnostico al contesto, è possibile usarlo per attaccare il modello target ogni volta che si vuole, indipendentemente da ciò che dice l'utente".
Per le organizzazioni che valutano deployment on-premise o ibridi di LLM e LALMs, questa vulnerabilità solleva serie preoccupazioni riguardo alla sovranità dei dati e alla compliance. La capacità di un attacco di aggirare le difese tradizionali, come la fornitura di esempi di istruzioni malevole (che ha ridotto il successo dell'attacco solo del 7%) o la richiesta al modello di riflettere sulla corrispondenza tra la sua risposta e le istruzioni dell'utente (che ha catturato solo il 28% degli attacchi), indica una lacuna fondamentale. L'unica tattica efficace identificata è il monitoraggio dei meccanismi di attenzione interni dei modelli, sebbene gli attaccanti possano mitigare questa difesa riducendo la manipolazione dell'attenzione. Questo scenario evidenzia la necessità di robuste strategie di sicurezza a livello infrastrutturale e di modello, specialmente in ambienti air-gapped o con stringenti requisiti di privacy.
Prospettive future e sfide irrisolte
Attaccare modelli proprietari closed source, come quelli di OpenAI e Anthropic, è più difficile a causa delle informazioni pubbliche limitate sulle loro architetture. Tuttavia, questi modelli spesso utilizzano componenti open source, come gli encoder audio pre-addestrati, che potrebbero essere bersaglio di attacchi simili, un'area che il team sta attualmente esplorando. Per rendere le manipolazioni più difficili da rilevare per un ascoltatore umano, i ricercatori hanno utilizzato una tecnica precedentemente sviluppata che fa sì che le modifiche all'audio suonino come una riverberazione naturale, più difficile da distinguere rispetto all'aggiunta di rumore.
Eugene Bagdasarian, assistente professore di informatica presso l'Università del Massachusetts Amherst, osserva che, nel mondo reale, questo tipo di attacco audio dovrà affrontare sfide aggiuntive come la compressione e vari meccanismi di post-elaborazione che potrebbero degradare i segnali. Tuttavia, ribadisce che gli attacchi multimodali ai modelli AI rimangono un problema sostanzialmente irrisolto. "Con i dati testuali possiamo capire che qualcosa non va (caratteri speciali, frasi sospette, ecc.), la modalità audio è davvero difficile da comprendere a causa della limitata capacità del nostro udito", ha scritto in una email. Questo sottolinea l'urgenza per CTO e architetti infrastrutturali di considerare queste nuove vettori di attacco nella progettazione dei loro deployment AI, bilanciando performance, TCO e sicurezza.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!