Sicurezza LLM: regole efficaci ai confini, non nei prompt

Attacchi AI: la nuova frontiera

Dal prompt injection su Gemini all'uso di codice Claude per spionaggio automatizzato, gli attacchi che sfruttano agenti AI e workflow autonomi sono una minaccia crescente. Un esempio concreto è la campagna di spionaggio del 2025, dove l'80-90% delle operazioni (ricognizione, sviluppo di exploit, furto di credenziali, movimento laterale, esfiltrazione dati) è stato orchestrato da AI.

Prompt injection: persuasione, non bug

La prompt injection è una forma di persuasione: gli attaccanti convincono il modello, non lo violano. Nell'esempio di Anthropic, gli operatori hanno spacchettato l'attacco in task apparentemente innocui, ingannando il modello facendogli credere di eseguire penetration test legittimi. Le comunità di sicurezza avvertono da tempo di questo rischio, con OWASP che pone prompt injection (o "Agent Goal Hijack") in cima alla lista delle minacce.

Governance, non "vibe coding"

I regolatori non chiedono prompt perfetti, ma controllo dimostrabile. Framework come NIST AI RMF e UK AI Cyber Security Code of Practice enfatizzano inventario degli asset, definizione dei ruoli, controllo degli accessi, change management e monitoraggio continuo. Le regole efficaci non sono "non dire X" o "rispondi sempre come Y", ma:

Chi è l'agente?
A quali strumenti e dati può accedere?
Quali azioni richiedono approvazione umana?
Come vengono moderati, registrati e controllati gli output ad alto impatto?

Dai "soft words" ai confini rigidi

Il caso di spionaggio con Claude evidenzia il fallimento dei confini: l'agente è stato indotto ad agire come consulente di sicurezza per una società fittizia, senza un'identità aziendale reale o permessi definiti. L'accesso flessibile a scanner, exploit e sistemi target, senza policy di controllo, ha permesso l'attacco. La lezione è chiara: la sicurezza deve essere applicata ai confini architetturali, non con regole linguistiche.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Sintesi

La community della sicurezza converge su:

Regole ai confini: policy engine, sistemi di identità e permessi per controllare cosa l'agente può fare.
Valutazione continua: strumenti di osservabilità, red-teaming e logging.
Agenti come soggetti nel threat model: MITRE ATLAS cataloga tecniche specifiche per sistemi AI.

Sicurezza LLM: regole efficaci ai confini, non nei prompt

Attacchi AI: la nuova frontiera

Prompt injection: persuasione, non bug

Governance, non "vibe coding"

Dai "soft words" ai confini rigidi

Sintesi

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

OpenAI acquisisce Promptfoo per la sicurezza delle applicazioni AI

Prompt singolo aggira le protezioni di sicurezza degli LLM

ChatGPT: nuove difese contro attacchi di prompt injection

👥 Unisciti a 160+ appassionati di AI