Unlearning nei LLM: una sfida cruciale
L'unlearning nei modelli linguistici di grandi dimensioni (LLM) è diventato essenziale per affrontare problemi di sicurezza, copyright e privacy. A differenza dell'allineamento delle preferenze, l'unlearning offre un modo più esplicito per rimuovere conoscenze indesiderate, caratterizzate da specifici dataset di unlearning.
TRU: Un approccio basato sul ragionamento
La ricerca evidenzia come i metodi basati su gradient ascent (GA) presentino limiti significativi, tra cui la degradazione delle capacità generali, la rimozione incompleta di conoscenze e la generazione di risposte incoerenti. Questi problemi derivano dalla mancanza di una guida esplicita su cosa e come i modelli dovrebbero disimparare.
Per colmare questa lacuna, è stato introdotto un nuovo target di unlearning basato sul ragionamento, che soddisfa sia l'ambito di unlearning specificato sia la risposta post-unlearning desiderata. Questo ha portato allo sviluppo di Targeted Reasoning Unlearning (TRU), che sfrutta il target di unlearning basato sul ragionamento come guida.
Implementazione e valutazione
TRU utilizza una loss supervisionata di cross-entropy combinata con una loss basata su GA, consentendo al modello di migliorare la capacità di ragionamento per una rimozione precisa delle conoscenze, preservando al contempo le capacità non correlate. Le valutazioni rispetto a baseline consolidate su diversi benchmark e architetture LLM dimostrano che TRU raggiunge un unlearning più affidabile, preservando al contempo le capacità generali. Inoltre, TRU mostra una maggiore robustezza in diversi scenari di attacco, grazie alla capacità di ragionamento acquisita attraverso i target basati sul ragionamento.
Per chi valuta deployment on-premise, esistono trade-off che AI-RADAR analizza in dettaglio su /llm-onpremise.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!