DeepMind e il rischio agenti AI: 10 milioni per la sicurezza dei sistemi multi-agente

DeepMind e la sfida della sicurezza nei sistemi multi-agente

Google DeepMind ha annunciato un'iniziativa di finanziamento da 10 milioni di dollari, in collaborazione con diverse altre organizzazioni, per sostenere la ricerca sui potenziali pericoli derivanti dall'interazione di milioni di agenti AI autonomi. L'allarme è stato lanciato da Rohin Shah, direttore della ricerca sulla sicurezza e l'allineamento AGI di DeepMind, il quale sottolinea come l'imminente diffusione di agenti capaci di eseguire compiti senza supervisione umana e di seguire istruzioni da altri agenti crei una nuova e complessa classe di rischi.

Questa mossa arriva dopo che Google I/O ha posto gli strumenti basati su agenti al centro delle sue presentazioni, evidenziando la crescente importanza di queste tecnicie. L'obiettivo del finanziamento è duplice: da un lato, affrontare le sfide emergenti legate alla sicurezza dei sistemi multi-agente; dall'altro, stimolare la ricerca al di fuori delle grandi aziende tecniciche, attingendo alla capacità del mondo accademico di esplorare scenari a lungo termine che potrebbero non essere prioritari nei laboratori industriali.

I rischi emergenti e la necessità di simulazioni

I pericoli individuati da Shah e James Fox, responsabile del programma Science of Trustworthy AI presso Schmidt Sciences, sono principalmente versioni amplificate di problemi già noti nel panorama digitale. Si parla di truffe potenziate, attacchi di "prompt injection" – dove un agente AI riceve istruzioni malevole, trasformandosi in un software dannoso auto-guidato – e altre forme di cyberattacco. La preoccupazione è che, con il Deployment di un numero sempre maggiore di agenti AI che iniziano a collaborare, si possa raggiungere un punto di non ritorno in cui scenari finora ipotetici diventino realtà.

Per comprendere e mitigare questi rischi, Shah e Fox ritengono che l'unica strada sia condurre simulazioni realistiche. L'idea è di "far cadere" gli agenti AI in ambienti controllati, o "sandbox", e studiarne il comportamento. Non è possibile prevedere cosa accadrà analizzando singoli agenti o piccoli gruppi isolati, né si può assumere che gli agenti basati su LLM agiranno sempre in modo razionale. La complessità deriva proprio dall'enorme numero di interazioni simultanee, un fenomeno che alcuni ricercatori, inclusi team di Google DeepMind, suggeriscono possa portare all'intelligenza artificiale generale (AGI) non da un singolo modello super-intelligente, ma da una sorta di "mente alveare" di agenti.

Un campo di ricerca ancora da definire

La mancanza di un campo di ricerca consolidato per la sicurezza dei sistemi multi-agente è una delle principali motivazioni dietro questo finanziamento. Shah sottolinea la necessità di creare una disciplina dedicata che possa affrontare queste sfide in modo sistematico. Google DeepMind non è l'unica azienda a sollevare preoccupazioni: Anthropic, ad esempio, ha recentemente pubblicato linee guida per il Deployment di agenti AI basate sull'approccio "zero trust", che parte dal presupposto che ogni sistema sia vulnerabile e ogni agente un potenziale attaccante.

Rafael Angel, co-fondatore e CTO di Akeyless, una società di cybersecurity, accoglie con favore l'iniziativa, evidenziando come gli agenti AI infrangano tutte le assunzioni di sicurezza tradizionali. Mentre i sistemi precedenti erano software con percorsi fissi, un agente "ragiona, improvvisa e può essere dirottato da una singola frase". Angel avverte però che i ricercatori sulla sicurezza potrebbero trascurare problemi "noiosi" già esistenti a favore di scenari ipotetici più esotici, sebbene Fox noti che rischi un tempo teorici sono ora molto concreti.

Implicazioni per il Deployment on-premise e la sovranità dei dati

Per le organizzazioni che valutano il Deployment di sistemi AI, in particolare soluzioni self-hosted o in ambienti air-gapped, le preoccupazioni sollevate da Google DeepMind assumono un'importanza critica. La capacità di un agente di essere dirottato o di generare comportamenti imprevisti in un sistema multi-agente ha dirette implicazioni sulla sovranità dei dati e sulla compliance. Garantire il controllo e la sicurezza in un ecosistema di agenti autonomi diventa una priorità assoluta per chi gestisce infrastrutture on-premise, dove la protezione delle informazioni sensibili e la resilienza agli attacchi sono fattori determinanti.

La necessità di simulazioni realistiche e di un campo di ricerca dedicato alla sicurezza multi-agente evidenzia la complessità di gestire questi sistemi in contesti aziendali. Per i CTO, i responsabili DevOps e gli architetti di infrastruttura, comprendere i trade-off tra flessibilità operativa e robustezza della sicurezza è fondamentale. L'investimento in ricerca da parte di DeepMind e partner suggerisce che la mitigazione di questi rischi richiederà non solo soluzioni tecniche avanzate, ma anche un approccio olistico che integri la sicurezza fin dalla fase di progettazione e Deployment dei sistemi basati su agenti.