Un nuovo studio di Anthropic e dell'Universitร  di Toronto ha cercato di quantificare la potenziale induzione a comportamenti dannosi da parte dei chatbot AI, analizzando 1,5 milioni di conversazioni anonimizzate con il modello Claude.

Risultati dello studio

La ricerca si รจ concentrata su tre modalitร  principali attraverso cui un chatbot puรฒ influenzare negativamente i pensieri o le azioni di un utente, portandolo a conseguenze indesiderate. I risultati indicano che, sebbene tali situazioni non siano la norma, la loro incidenza resta un problema da non sottovalutare.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.