REPO: difesa avanzata da output tossici nei LLM tramite 'cancellazione' di rappresentazioni

Pubblicato il 2026-03-02 05:05 🏆 ArXiv cs.LG 📰 Leggi l'articolo originale →

I modelli linguistici di grandi dimensioni (LLM), addestrati su vasti dataset web, possono generare output tossici, sollevando preoccupazioni sulla loro sicurezza.

REPO: un nuovo approccio

La ricerca ha dimostrato che le modifiche apportate ai modelli per mitigare questo problema sono spesso superficiali. REPO (Representation Erasure-based Preference Optimization) riformula la detossificazione come un problema di preferenza a livello di token. Questo metodo innovativo forza le rappresentazioni di continuazioni tossiche a convergere verso le loro controparti benigne.

Analisi e risultati

Un'analisi approfondita rivela che questo approccio granulare induce modifiche localizzate nei neuroni che codificano la tossicità, preservando al contempo l'utilità generale del modello. Le valutazioni dimostrano che REPO raggiunge una robustezza all'avanguardia, bloccando minacce sofisticate, inclusi attacchi di riapprendimento e jailbreak GCG avanzati, dove i metodi esistenti falliscono.

Takeaway AI-Radar

Un nuovo approccio, chiamato REPO (Representation Erasure-based Preference Optimization), mira a ridurre la generazione di output tossici da parte dei modelli linguistici di grandi dimensioni (LLM). REPO interviene a livello di rappresentazione interna del modello, forzando la convergenza delle rappresentazioni tossiche verso quelle benigne, dimostrando una maggiore robustezza rispetto ai metodi tradizionali.

🤖 Chiedi all'AI di questo argomento

Vuoi approfondire? Leggi l'articolo completo dalla fonte:

📖 VAI ALLA FONTE ORIGINALE

💻 Hai bisogno di infrastruttura GPU cloud?

Per eseguire inferenza LLM, training di modelli o testare configurazioni hardware, dai un'occhiata a questa piattaforma:

🚂

Railway Infrastruttura Cloud

Piattaforma cloud moderna con deployment istantanei. Deploy da GitHub in secondi con HTTPS automatico, database e monitoring. Perfetta per web app, API e servizi di inferenza LLM.

✓ Integrazione GitHub ✓ HTTPS automatico ✓ Prezzi semplici

🔗 Questo è un link affiliato - potremmo ricevere una commissione senza costi aggiuntivi per te.