LLM sotto attacco: la tecnica "Adversarial Tales"

I modelli linguistici di grandi dimensioni (LLM) continuano a mostrare vulnerabilità inaspettate. Un recente studio ha svelato una nuova tecnica di attacco, denominata "Adversarial Tales", che sfrutta narrazioni cyberpunk per aggirare i meccanismi di sicurezza.

L'attacco consiste nell'incorporare richieste dannose all'interno di storie strutturate, inducendo i modelli a eseguire analisi funzionali ispirate alla morfologia delle fiabe di Vladimir Propp. In pratica, il modello viene spinto a scomporre la narrazione in elementi strutturali, ricostruendo procedure dannose come legittime interpretazioni narrative.

Efficacia e diffusione degli attacchi

I ricercatori hanno testato "Adversarial Tales" su 26 modelli di punta provenienti da nove fornitori diversi, riscontrando un tasso di successo medio del 71,3%. Nessuna famiglia di modelli si è dimostrata completamente immune. Questi risultati, uniti a precedenti lavori sulla "Adversarial Poetry", suggeriscono che i "jailbreak" basati su strutture narrative rappresentano una classe di vulnerabilità ampia e non facilmente risolvibile con le sole difese basate sul pattern-matching.

La necessità di una ricerca approfondita

Comprendere le ragioni del successo di questi attacchi è fondamentale. I ricercatori propongono un programma di ricerca sull'interpretabilità meccanicistica per studiare come gli indizi narrativi rimodellano le rappresentazioni interne del modello e se i modelli possono imparare a riconoscere l'intento dannoso indipendentemente dalla forma superficiale. La sfida è ardua, ma necessaria per rendere gli LLM più sicuri e affidabili.