Interazioni Uomo-AI: il Lato Oscuro

Recenti episodi hanno messo in luce casi allarmanti in cui le interazioni tra uomo e AI hanno portato a conseguenze psicologiche negative, tra cui crisi di salute mentale e persino danni agli utenti. Con i modelli linguistici di grandi dimensioni (LLM) che fungono sempre piรน spesso da fonti di orientamento, supporto emotivo e persino terapia informale, questi rischi sono destinati ad aumentare.

MultiTraitsss: un Framework per Studiare le Interazioni Dannose

Studiare i meccanismi alla base delle interazioni uomo-AI dannose presenta sfide metodologiche significative. Le interazioni dannose organiche si sviluppano tipicamente nel corso di un coinvolgimento prolungato, richiedendo un ampio contesto conversazionale difficile da simulare in ambienti controllati. Per affrontare questa lacuna, i ricercatori hanno sviluppato un framework chiamato Multi-Trait Subspace Steering (MultiTraitsss). Questo framework sfrutta tratti associati a crisi conclamate e un nuovo approccio di subspace steering per generare modelli "oscuri" che esibiscono modelli comportamentali cumulativi dannosi.

Risultati e Misure Protettive

Valutazioni single-turn e multi-turn mostrano che i modelli oscuri producono costantemente interazioni ed esiti dannosi. Utilizzando questi modelli, i ricercatori propongono misure protettive per ridurre gli esiti dannosi nelle interazioni uomo-AI.