RedacBench: Un Nuovo Benchmark per la Rimozione di Informazioni Sensibili

La capacità dei modelli linguistici moderni di estrarre informazioni sensibili da testi non strutturati rende la rimozione selettiva di tali informazioni, o redazione, un aspetto cruciale per la sicurezza dei dati. Per affrontare le limitazioni dei benchmark esistenti, che spesso si concentrano su categorie predefinite come le informazioni personali (PII), è stato introdotto RedacBench.

RedacBench è un benchmark completo per valutare la rimozione di informazioni in base a policy specifiche, attraverso diversi domini e strategie. Costruito a partire da 514 testi creati da persone fisiche, aziende ed enti governativi, e abbinato a 187 policy di sicurezza, RedacBench misura la capacità di un modello di rimuovere selettivamente le informazioni che violano le policy, preservando al contempo la semantica originale.

Le performance vengono quantificate utilizzando 8.053 proposizioni annotate che catturano tutte le informazioni deducibili in ciascun testo. Questo permette di valutare sia la sicurezza (la rimozione di proposizioni sensibili) che l'utilità (la preservazione di proposizioni non sensibili). Gli esperimenti condotti su diverse strategie di rimozione e modelli linguistici all'avanguardia mostrano che, sebbene i modelli più avanzati possano migliorare la sicurezza, preservare l'utilità rimane una sfida. RedacBench è disponibile pubblicamente per favorire la ricerca futura.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare queste opzioni.