I modelli linguistici di grandi dimensioni (LLM), addestrati su vasti dataset web, possono generare output tossici, sollevando preoccupazioni sulla loro sicurezza.

REPO: un nuovo approccio

La ricerca ha dimostrato che le modifiche apportate ai modelli per mitigare questo problema sono spesso superficiali. REPO (Representation Erasure-based Preference Optimization) riformula la detossificazione come un problema di preferenza a livello di token. Questo metodo innovativo forza le rappresentazioni di continuazioni tossiche a convergere verso le loro controparti benigne.

Analisi e risultati

Un'analisi approfondita rivela che questo approccio granulare induce modifiche localizzate nei neuroni che codificano la tossicità, preservando al contempo l'utilità generale del modello. Le valutazioni dimostrano che REPO raggiunge una robustezza all'avanguardia, bloccando minacce sofisticate, inclusi attacchi di riapprendimento e jailbreak GCG avanzati, dove i metodi esistenti falliscono.