Un esperimento ha rivelato una vulnerabilitร  nei Large Language Model (LLM) quando integrati in sistemi che interagiscono con fonti dati esterne non verificate, come la posta elettronica.

Dettagli dell'attacco

L'attacco, descritto in dettaglio su Reddit e Medium, sfrutta la tecnica del prompt injection. Un utente ha inviato a sรฉ stesso un'email contenente istruzioni nascoste, camuffate come output di sistema. Il LLM, in questo caso ClawdBot, รจ stato istruito a leggere l'email. A quel punto, il modello ha interpretato le istruzioni iniettate come provenienti dall'utente legittimo e ha eseguito azioni non autorizzate, recuperando le ultime cinque email e inviandone un riassunto a un indirizzo controllato dall'"attaccante".

Implicazioni per la sicurezza

L'aspetto critico รจ che l'attacco non si basa su malware o exploit tradizionali, ma sulla capacitร  di manipolare il modello tramite linguaggio naturale. Questo solleva preoccupazioni significative per qualsiasi agente AI che elabori contenuti non attendibili e possa intraprendere azioni concrete. La mancanza di distinzione tra il linguaggio utilizzato per i comandi e quello presente nelle comunicazioni ordinarie rappresenta un rischio intrinseco.

Per chi valuta deployment on-premise, esistono trade-off tra controllo e sicurezza. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.