La sicurezza e l'affidabilità dei modelli linguistici di grandi dimensioni (LLM) sono messe a rischio dai cosiddetti "jailbreak", ovvero attacchi che inducono il modello a comportamenti non desiderati. Un nuovo studio si concentra sull'analisi delle cause di questi attacchi, proponendo un approccio basato sull'inference causale.

Causal Analyst: un framework per l'analisi dei jailbreak

I ricercatori hanno sviluppato Causal Analyst, un framework che integra gli LLM in un processo di scoperta causale guidato dai dati. L'obiettivo è identificare le cause dirette dei jailbreak e sfruttarle per migliorare sia le strategie di attacco che le contromisure difensive. A tal fine, è stato creato un dataset di 35.000 tentativi di jailbreak su sette LLM diversi, basato su 100 template di attacco e 50 query dannose, annotati con 37 caratteristiche dei prompt.

Scoperta delle cause e applicazioni pratiche

Attraverso l'addestramento congiunto di un sistema di encoding dei prompt basato su LLM e un algoritmo di apprendimento di grafi causali basato su GNN, il framework ricostruisce i percorsi causali che collegano le caratteristiche dei prompt alle risposte di jailbreak. L'analisi ha rivelato che alcune caratteristiche, come "Positive Character" e "Number of Task Steps", agiscono come fattori causali diretti dei jailbreak. Queste informazioni sono state utilizzate per sviluppare:

  • Un "Jailbreaking Enhancer" che mira alle caratteristiche causali identificate per aumentare significativamente il tasso di successo degli attacchi.
  • Un "Guardrail Advisor" che utilizza il grafo causale appreso per estrarre la vera intenzione malevola da query offuscate.

I risultati sperimentali confermano l'efficacia dell'analisi causale rispetto agli approcci non causali, suggerendo che l'analisi delle caratteristiche dei jailbreak da una prospettiva causale è un metodo efficace e interpretabile per migliorare l'affidabilità degli LLM.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.