Studio: i chatbot sono pessimi medici

Uno studio pubblicato su Nature dall'Oxford Internet Institute e dal Nuffield Department of Primary Care Health Sciences dell'Università di Oxford ha valutato l'affidabilità dei modelli linguistici di grandi dimensioni (LLM) nel fornire consulenza medica.

Dettagli dello studio

I ricercatori hanno coinvolto 1.298 partecipanti nel Regno Unito, assegnati casualmente a interagire con uno tra GPT-4o, Llama 3 e Command R+ di Cohere, oppure a utilizzare una fonte di loro scelta per affrontare scenari medici simulati. Gli scenari variavano da un giovane con un forte mal di testa a una neomamma esausta.

Quando i modelli sono stati testati direttamente con il testo completo degli scenari clinici, hanno identificato correttamente le condizioni nel 94,9% dei casi. Tuttavia, quando interagivano con i partecipanti, l'accuratezza è scesa al 34,5%. In alcuni casi, i chatbot hanno fornito informazioni errate o incomplete, concentrandosi su elementi irrilevanti o suggerendo numeri di emergenza sbagliati.

Implicazioni e avvertenze

In un caso estremo, due utenti con sintomi simili di emorragia subaracnoidea hanno ricevuto consigli opposti: a uno è stato detto di sdraiarsi in una stanza buia, mentre all'altro è stato correttamente consigliato di cercare assistenza medica urgente.

La dottoressa Rebecca Payne, responsabile medico dello studio, ha sottolineato la difficoltà di sviluppare sistemi di intelligenza artificiale in grado di supportare le persone in aree sensibili come la salute. Ha avvertito che chiedere a un modello linguistico di grandi dimensioni informazioni sui propri sintomi può essere pericoloso, portando a diagnosi errate e mancato riconoscimento di situazioni di emergenza.

Contesto più ampio

Questo studio si aggiunge a una crescente preoccupazione per l'uso improprio dei chatbot in ambito sanitario. In precedenza, erano stati segnalati chatbot che si spacciavano per terapisti, fornendo credenziali false. OpenAI ha introdotto ChatGPT Health, una versione di ChatGPT progettata per fornire informazioni sanitarie più accurate, ma i ricercatori raccomandano di testare accuratamente gli LLM con utenti umani reali prima di implementazioni su vasta scala.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi trade-off.

Studio: i chatbot sono pessimi medici

Dettagli dello studio

Implicazioni e avvertenze

Contesto più ampio

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

MedArena: LLM medici valutati da clinici in scenari reali

LLM: nuovo approccio all'etica medica cinese con MedES

LiveMedBench: Benchmark Medico Aggiornato e Senza Contaminazioni per LLM

👥 Unisciti a 160+ appassionati di AI