I modelli linguistici di grandi dimensioni (LLM), addestrati su vasti dataset web, possono generare output tossici, sollevando preoccupazioni sulla loro sicurezza.
REPO: un nuovo approccio
La ricerca ha dimostrato che le modifiche apportate ai modelli per mitigare questo problema sono spesso superficiali. REPO (Representation Erasure-based Preference Optimization) riformula la detossificazione come un problema di preferenza a livello di token. Questo metodo innovativo forza le rappresentazioni di continuazioni tossiche a convergere verso le loro controparti benigne.
Analisi e risultati
Un'analisi approfondita rivela che questo approccio granulare induce modifiche localizzate nei neuroni che codificano la tossicitร , preservando al contempo l'utilitร generale del modello. Le valutazioni dimostrano che REPO raggiunge una robustezza all'avanguardia, bloccando minacce sofisticate, inclusi attacchi di riapprendimento e jailbreak GCG avanzati, dove i metodi esistenti falliscono.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!