I modelli linguistici di grandi dimensioni (LLM), addestrati su vasti dataset web, possono generare output tossici, sollevando preoccupazioni sulla loro sicurezza.

REPO: un nuovo approccio

La ricerca ha dimostrato che le modifiche apportate ai modelli per mitigare questo problema sono spesso superficiali. REPO (Representation Erasure-based Preference Optimization) riformula la detossificazione come un problema di preferenza a livello di token. Questo metodo innovativo forza le rappresentazioni di continuazioni tossiche a convergere verso le loro controparti benigne.

Analisi e risultati

Un'analisi approfondita rivela che questo approccio granulare induce modifiche localizzate nei neuroni che codificano la tossicitร , preservando al contempo l'utilitร  generale del modello. Le valutazioni dimostrano che REPO raggiunge una robustezza all'avanguardia, bloccando minacce sofisticate, inclusi attacchi di riapprendimento e jailbreak GCG avanzati, dove i metodi esistenti falliscono.