Distillazione di conoscenza e sicurezza multilingua degli LLM
La sicurezza degli LLM รจ un tema sempre piรน critico, specialmente in contesti non-inglesi dove l'allineamento dei modelli รจ spesso meno curato. Un recente studio ha esplorato l'applicazione della distillazione di conoscenza (KD) per prevenire attacchi jailbreak multilingua.
I ricercatori hanno utilizzato la distillazione per trasferire le risposte di rifiuto di un modello proprietario (OpenAI o1-mini) a tre modelli open-source: Meta-Llama-3-8B-Instruct, Gemma-2-2B-IT e Qwen3-8B. Questo processo รจ stato realizzato tramite Low-Rank Adaptation (LoRA) e circa 28.000 prompt jailbreak multilingua provenienti da XSafety, utilizzando un approccio black-box response-based e parameter-efficient fine-tuning (PEFT).
Risultati inattesi: aumento della vulnerabilitร
La valutazione tramite il benchmark MultiJail ha rivelato un comportamento controintuitivo: l'affinamento standard sui dati di rifiuto "sicuri" del modello teacher ha in realtร aumentato il Jailbreak Success Rate (JSR) per tutti i modelli student, fino a 16.6 punti percentuali. Questo suggerisce che la generalizzazione a lingue non viste durante la distillazione puรฒ portare a risultati divergenti, a seconda del modello di base.
La rimozione di una fonte primaria di degrado della sicurezza, ovvero i rifiuti "di confine", ha mitigato o addirittura invertito il declino della sicurezza nei modelli student, sebbene siano persistite riduzioni nelle performance di ragionamento (GSM8K). Lo studio evidenzia le sfide e il potenziale della distillazione di conoscenza come tecnica per l'allineamento della sicurezza multilingua, aprendo la strada a future ricerche in questa direzione.
Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!