Unlearning mirato per LLM: ragionamento per rimuovere bias

Unlearning nei LLM: una sfida cruciale

L'unlearning nei modelli linguistici di grandi dimensioni (LLM) è diventato essenziale per affrontare problemi di sicurezza, copyright e privacy. A differenza dell'allineamento delle preferenze, l'unlearning offre un modo più esplicito per rimuovere conoscenze indesiderate, caratterizzate da specifici dataset di unlearning.

TRU: Un approccio basato sul ragionamento

La ricerca evidenzia come i metodi basati su gradient ascent (GA) presentino limiti significativi, tra cui la degradazione delle capacità generali, la rimozione incompleta di conoscenze e la generazione di risposte incoerenti. Questi problemi derivano dalla mancanza di una guida esplicita su cosa e come i modelli dovrebbero disimparare.

Per colmare questa lacuna, è stato introdotto un nuovo target di unlearning basato sul ragionamento, che soddisfa sia l'ambito di unlearning specificato sia la risposta post-unlearning desiderata. Questo ha portato allo sviluppo di Targeted Reasoning Unlearning (TRU), che sfrutta il target di unlearning basato sul ragionamento come guida.

Implementazione e valutazione

TRU utilizza una loss supervisionata di cross-entropy combinata con una loss basata su GA, consentendo al modello di migliorare la capacità di ragionamento per una rimozione precisa delle conoscenze, preservando al contempo le capacità non correlate. Le valutazioni rispetto a baseline consolidate su diversi benchmark e architetture LLM dimostrano che TRU raggiunge un unlearning più affidabile, preservando al contempo le capacità generali. Inoltre, TRU mostra una maggiore robustezza in diversi scenari di attacco, grazie alla capacità di ragionamento acquisita attraverso i target basati sul ragionamento.

Per chi valuta deployment on-premise, esistono trade-off che AI-RADAR analizza in dettaglio su /llm-onpremise.

Unlearning mirato per LLM: ragionamento per rimuovere bias

Unlearning nei LLM: una sfida cruciale

TRU: Un approccio basato sul ragionamento

Implementazione e valutazione

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Attacchi GCG: vulnerabilità nei modelli di diffusione linguistica?

Bias nascosti nei LLM per il triage ospedaliero: uno studio

Valutazione di LLM per il greco: il benchmark DemosQA

👥 Unisciti a 160+ appassionati di AI