LLM e vulnerabilità: l'effetto del linguaggio alterato

Un recente studio pubblicato su arXiv ha esaminato come l'induzione di un linguaggio alterato, simile a quello di una persona in stato di ebbrezza, possa esporre i modelli linguistici di grandi dimensioni (LLM) a nuove vulnerabilità.

I ricercatori hanno esplorato tre metodi per indurre questo tipo di linguaggio negli LLM: prompt basati su personaggi, fine-tuning causale e post-training basato su reinforcement learning. I risultati ottenuti su cinque LLM hanno mostrato una maggiore suscettibilità a tecniche di jailbreaking, misurata tramite il benchmark JailbreakBench, e a fughe di dati privati, valutate con ConfAIde. Questi risultati sono stati osservati anche in presenza di meccanismi di difesa.

L'analisi, condotta attraverso valutazioni manuali e automatizzate, suggerisce una correlazione tra il comportamento umano in stato di ebbrezza e l'antropomorfismo indotto negli LLM tramite il linguaggio alterato. La semplicità e l'efficacia di questi approcci di induzione del linguaggio alterato li rendono potenziali strumenti per testare e migliorare la sicurezza degli LLM, ma allo stesso tempo evidenziano i rischi significativi per la loro affidabilità.