AI-RADAR.IT · AI-RADAR.NET · AI-RADAR.TECH

News & analisi per LLM locali, stack e hardware on-prem.

📁 LLM AI generated

Unlearning mirato per LLM: ragionamento per rimuovere bias

Pubblicato il 2026-03-12 04:00 🏆 ArXiv cs.LG 📰 Leggi l'articolo originale →

🏷️ LLM On-Premise 🏷️ Fine-Tuning 🏷️ DevOps

Unlearning mirato per LLM: ragionamento per rimuovere bias

Unlearning nei LLM: una sfida cruciale

L'unlearning nei modelli linguistici di grandi dimensioni (LLM) è diventato essenziale per affrontare problemi di sicurezza, copyright e privacy. A differenza dell'allineamento delle preferenze, l'unlearning offre un modo più esplicito per rimuovere conoscenze indesiderate, caratterizzate da specifici dataset di unlearning.

TRU: Un approccio basato sul ragionamento

La ricerca evidenzia come i metodi basati su gradient ascent (GA) presentino limiti significativi, tra cui la degradazione delle capacità generali, la rimozione incompleta di conoscenze e la generazione di risposte incoerenti. Questi problemi derivano dalla mancanza di una guida esplicita su cosa e come i modelli dovrebbero disimparare.

Per colmare questa lacuna, è stato introdotto un nuovo target di unlearning basato sul ragionamento, che soddisfa sia l'ambito di unlearning specificato sia la risposta post-unlearning desiderata. Questo ha portato allo sviluppo di Targeted Reasoning Unlearning (TRU), che sfrutta il target di unlearning basato sul ragionamento come guida.

Implementazione e valutazione

TRU utilizza una loss supervisionata di cross-entropy combinata con una loss basata su GA, consentendo al modello di migliorare la capacità di ragionamento per una rimozione precisa delle conoscenze, preservando al contempo le capacità non correlate. Le valutazioni rispetto a baseline consolidate su diversi benchmark e architetture LLM dimostrano che TRU raggiunge un unlearning più affidabile, preservando al contempo le capacità generali. Inoltre, TRU mostra una maggiore robustezza in diversi scenari di attacco, grazie alla capacità di ragionamento acquisita attraverso i target basati sul ragionamento.

Per chi valuta deployment on-premise, esistono trade-off che AI-RADAR analizza in dettaglio su /llm-onpremise.

Takeaway AI-Radar

Un nuovo studio introduce un metodo di unlearning mirato (TRU) per i modelli linguistici di grandi dimensioni (LLM). TRU utilizza il ragionamento per rimuovere conoscenze indesiderate, preservando al contempo le capacità generali del modello e migliorandone la robustezza contro attacchi. L'approccio mira a risolvere i problemi di degradazione e incoerenza riscontrati con i metodi di gradient ascent.

🤖 Chiedi all'AI di questo argomento

Vuoi approfondire? Leggi l'articolo completo dalla fonte:

📖 VAI ALLA FONTE ORIGINALE

💻 Hai bisogno di infrastruttura GPU cloud?

Per eseguire inferenza LLM, training di modelli o testare configurazioni hardware, dai un'occhiata a questa piattaforma:

Vast.ai Marketplace GPU

Marketplace GPU decentralizzato con prezzi ultra-competitivi. Noleggia da una rete globale di provider. Perfetto per sperimentazione, sviluppo e carichi ottimizzati sui costi.

✓ Prezzi minimi ✓ Rete globale ✓ Opzioni flessibili

🔗 Questo è un link affiliato - potremmo ricevere una commissione senza costi aggiuntivi per te.

AI-RADAR NEWSLETTER

Resta aggiornato — segnali AI nella tua inbox

Digest giornaliero o settimanale delle notizie AI più importanti. 160+ lettori, zero spam.

💬 Commenti (0)

🔒 Accedi o registrati per commentare gli articoli.

Nessun commento ancora. Sii il primo a commentare!

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Guida completa per eseguire modelli AI in locale: hardware, stack e privacy.

Attacchi GCG: vulnerabilità nei modelli di diffusione linguistica?

Attacchi GCG: vulnerabilità nei modelli di diffusione linguistica?

Un nuovo studio esplora l'efficacia degli attacchi Greedy Coordinate Gradient (GCG) contro i modelli di diffusione linguistica, un'alternativa emergente ai mode

PEEL: Garantire l'Affidabilità Epistemica degli LLM nella Ricerca

PEEL: Garantire l'Affidabilità Epistemica degli LLM nella Ricerca

I Large Language Models stanno ridefinendo le pratiche di ricerca, ma sollevano interrogativi sulla responsabilità epistemica. Il framework PEEL (Protocols for

GNN-as-Judge: LLM e GNN insieme per l'apprendimento su grafi con poche risorse

GNN-as-Judge: LLM e GNN insieme per l'apprendimento su grafi con poche risorse

Un nuovo framework, GNN-as-Judge, mira a superare i limiti degli LLM nell'apprendimento semi-supervisionato su grafi con attributi testuali (TAG) in contesti a

Bias nascosti nei LLM per il triage ospedaliero: uno studio

Bias nascosti nei LLM per il triage ospedaliero: uno studio

Una nuova ricerca evidenzia come i modelli linguistici di grandi dimensioni (LLM) integrati nei sistemi di triage ospedaliero possano presentare bias nascosti n

Valutazione di LLM per il greco: il benchmark DemosQA

Valutazione di LLM per il greco: il benchmark DemosQA

Un nuovo studio presenta DemosQA, un dataset per il Question Answering in greco, creato a partire da domande degli utenti sui social media. La ricerca valuta 11

Altri articoli in LLM

LLM on-premise: cercare il modello giusto tra benchmark frammentati e dimensioni inutili

Sfida a due nel benchmark US Ban: OpenAI e Anthropic pareggiano

Anche Google crede nei modelli piccoli per il coding

SpectralQuant riduce il gap della quantization Q4_K_M al 96.5%: un salto per i modelli locali

Da Tokyo e Pechino, due nuovi tool AI che aggirano il blocco export di Anthropic

ConlangCrafter: l'AI che inventa lingue immaginarie (e potrebbe insegnarci come pensiamo)

→ Vedi tutti in LLM →

AI-Radar LLM On-Premise

Guida completa per eseguire modelli AI in locale: hardware, stack, privacy e architetture di riferimento.

👥 Unisciti a 160+ appassionati di AI

Una community gratuita di sviluppatori, ingegneri e appassionati di AI — newsletter, commenti, radar settimanale.

Iscriviti gratis → Hai già un account? Accedi