LLM: Separazione dello spazio di embedding per la sicurezza

I modelli linguistici di grandi dimensioni (LLM) mostrano notevoli capacitร , ma proteggerli da prompt dannosi resta una sfida cruciale. Una ricerca recente ha evidenziato come le rappresentazioni latenti (embedding) di query dannose e sicure negli LLM tendano a mostrare una separabilitร  lineare. Questa caratteristica รจ stata sfruttata per costruire attacchi, perturbando gli embedding di query dannose verso il sottospazio sicuro.

Per affrontare questo problema, รจ stato proposto un approccio di fine-tuning a livello di rappresentazione, chiamato Embedding Space Separation (ES2). ES2 mira a migliorare la sicurezza degli LLM aumentando esplicitamente la distanza tra le rappresentazioni dannose e sicure nello spazio di embedding. Per evitare di compromettere le capacitร  generali del modello, รจ stato introdotto un termine di regolarizzazione della divergenza di Kullback-Leibler (KL) nella funzione di perdita. Questo vincola i logit del modello fine-tuned ad allinearsi con quelli del modello base originale su input innocui.

La metodologia รจ stata valutata su diversi LLM open-source utilizzando benchmark di sicurezza standard. I risultati sperimentali indicano che questo approccio migliora notevolmente la sicurezza del modello, mantenendo al contempo capacitร  generali comparabili.