Distillazione di conoscenza e sicurezza multilingua degli LLM

La sicurezza degli LLM รจ un tema sempre piรน critico, specialmente in contesti non-inglesi dove l'allineamento dei modelli รจ spesso meno curato. Un recente studio ha esplorato l'applicazione della distillazione di conoscenza (KD) per prevenire attacchi jailbreak multilingua.

I ricercatori hanno utilizzato la distillazione per trasferire le risposte di rifiuto di un modello proprietario (OpenAI o1-mini) a tre modelli open-source: Meta-Llama-3-8B-Instruct, Gemma-2-2B-IT e Qwen3-8B. Questo processo รจ stato realizzato tramite Low-Rank Adaptation (LoRA) e circa 28.000 prompt jailbreak multilingua provenienti da XSafety, utilizzando un approccio black-box response-based e parameter-efficient fine-tuning (PEFT).

Risultati inattesi: aumento della vulnerabilitร 

La valutazione tramite il benchmark MultiJail ha rivelato un comportamento controintuitivo: l'affinamento standard sui dati di rifiuto "sicuri" del modello teacher ha in realtร  aumentato il Jailbreak Success Rate (JSR) per tutti i modelli student, fino a 16.6 punti percentuali. Questo suggerisce che la generalizzazione a lingue non viste durante la distillazione puรฒ portare a risultati divergenti, a seconda del modello di base.

La rimozione di una fonte primaria di degrado della sicurezza, ovvero i rifiuti "di confine", ha mitigato o addirittura invertito il declino della sicurezza nei modelli student, sebbene siano persistite riduzioni nelle performance di ragionamento (GSM8K). Lo studio evidenzia le sfide e il potenziale della distillazione di conoscenza come tecnica per l'allineamento della sicurezza multilingua, aprendo la strada a future ricerche in questa direzione.

Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.