LLM: Separazione dello spazio di embedding per la sicurezza

I modelli linguistici di grandi dimensioni (LLM) mostrano notevoli capacità, ma proteggerli da prompt dannosi resta una sfida cruciale. Una ricerca recente ha evidenziato come le rappresentazioni latenti (embedding) di query dannose e sicure negli LLM tendano a mostrare una separabilità lineare. Questa caratteristica è stata sfruttata per costruire attacchi, perturbando gli embedding di query dannose verso il sottospazio sicuro.

Per affrontare questo problema, è stato proposto un approccio di fine-tuning a livello di rappresentazione, chiamato Embedding Space Separation (ES2). ES2 mira a migliorare la sicurezza degli LLM aumentando esplicitamente la distanza tra le rappresentazioni dannose e sicure nello spazio di embedding. Per evitare di compromettere le capacità generali del modello, è stato introdotto un termine di regolarizzazione della divergenza di Kullback-Leibler (KL) nella funzione di perdita. Questo vincola i logit del modello fine-tuned ad allinearsi con quelli del modello base originale su input innocui.

La metodologia è stata valutata su diversi LLM open-source utilizzando benchmark di sicurezza standard. I risultati sperimentali indicano che questo approccio migliora notevolmente la sicurezza del modello, mantenendo al contempo capacità generali comparabili.