Analisi causale per rafforzare la sicurezza degli LLM

La sicurezza e l'affidabilità dei modelli linguistici di grandi dimensioni (LLM) sono messe a rischio dai cosiddetti "jailbreak", ovvero attacchi che inducono il modello a comportamenti non desiderati. Un nuovo studio si concentra sull'analisi delle cause di questi attacchi, proponendo un approccio basato sull'inference causale.

Causal Analyst: un framework per l'analisi dei jailbreak

I ricercatori hanno sviluppato Causal Analyst, un framework che integra gli LLM in un processo di scoperta causale guidato dai dati. L'obiettivo è identificare le cause dirette dei jailbreak e sfruttarle per migliorare sia le strategie di attacco che le contromisure difensive. A tal fine, è stato creato un dataset di 35.000 tentativi di jailbreak su sette LLM diversi, basato su 100 template di attacco e 50 query dannose, annotati con 37 caratteristiche dei prompt.

Scoperta delle cause e applicazioni pratiche

Attraverso l'addestramento congiunto di un sistema di encoding dei prompt basato su LLM e un algoritmo di apprendimento di grafi causali basato su GNN, il framework ricostruisce i percorsi causali che collegano le caratteristiche dei prompt alle risposte di jailbreak. L'analisi ha rivelato che alcune caratteristiche, come "Positive Character" e "Number of Task Steps", agiscono come fattori causali diretti dei jailbreak. Queste informazioni sono state utilizzate per sviluppare:

Un "Jailbreaking Enhancer" che mira alle caratteristiche causali identificate per aumentare significativamente il tasso di successo degli attacchi.
Un "Guardrail Advisor" che utilizza il grafo causale appreso per estrarre la vera intenzione malevola da query offuscate.

I risultati sperimentali confermano l'efficacia dell'analisi causale rispetto agli approcci non causali, suggerendo che l'analisi delle caratteristiche dei jailbreak da una prospettiva causale è un metodo efficace e interpretabile per migliorare l'affidabilità degli LLM.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.