Un nuovo studio di Anthropic e dell'Università di Toronto ha cercato di quantificare la potenziale induzione a comportamenti dannosi da parte dei chatbot AI, analizzando 1,5 milioni di conversazioni anonimizzate con il modello Claude.

Risultati dello studio

La ricerca si è concentrata su tre modalità principali attraverso cui un chatbot può influenzare negativamente i pensieri o le azioni di un utente, portandolo a conseguenze indesiderate. I risultati indicano che, sebbene tali situazioni non siano la norma, la loro incidenza resta un problema da non sottovalutare.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.