Distillazione di conoscenza: sicurezza LLM multilingua a rischio?

Distillazione di conoscenza e sicurezza multilingua degli LLM

La sicurezza degli LLM è un tema sempre più critico, specialmente in contesti non-inglesi dove l'allineamento dei modelli è spesso meno curato. Un recente studio ha esplorato l'applicazione della distillazione di conoscenza (KD) per prevenire attacchi jailbreak multilingua.

I ricercatori hanno utilizzato la distillazione per trasferire le risposte di rifiuto di un modello proprietario (OpenAI o1-mini) a tre modelli open-source: Meta-Llama-3-8B-Instruct, Gemma-2-2B-IT e Qwen3-8B. Questo processo è stato realizzato tramite Low-Rank Adaptation (LoRA) e circa 28.000 prompt jailbreak multilingua provenienti da XSafety, utilizzando un approccio black-box response-based e parameter-efficient fine-tuning (PEFT).

Risultati inattesi: aumento della vulnerabilità

La valutazione tramite il benchmark MultiJail ha rivelato un comportamento controintuitivo: l'affinamento standard sui dati di rifiuto "sicuri" del modello teacher ha in realtà aumentato il Jailbreak Success Rate (JSR) per tutti i modelli student, fino a 16.6 punti percentuali. Questo suggerisce che la generalizzazione a lingue non viste durante la distillazione può portare a risultati divergenti, a seconda del modello di base.

La rimozione di una fonte primaria di degrado della sicurezza, ovvero i rifiuti "di confine", ha mitigato o addirittura invertito il declino della sicurezza nei modelli student, sebbene siano persistite riduzioni nelle performance di ragionamento (GSM8K). Lo studio evidenzia le sfide e il potenziale della distillazione di conoscenza come tecnica per l'allineamento della sicurezza multilingua, aprendo la strada a future ricerche in questa direzione.

Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Distillazione di conoscenza: sicurezza LLM multilingua a rischio?

Distillazione di conoscenza e sicurezza multilingua degli LLM

Risultati inattesi: aumento della vulnerabilità

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Rileggendo l'intelligenza multi-agente attraverso reti di piccolo mondo

Un tool open source fa dibattere 5 IA per validare le risposte

Sicurezza degli LLM medicali: un nuovo scudo contro gli attacchi

👥 Unisciti a 160+ appassionati di AI