Uno studio pubblicato su Nature dall'Oxford Internet Institute e dal Nuffield Department of Primary Care Health Sciences dell'Universitร di Oxford ha valutato l'affidabilitร dei modelli linguistici di grandi dimensioni (LLM) nel fornire consulenza medica.
Dettagli dello studio
I ricercatori hanno coinvolto 1.298 partecipanti nel Regno Unito, assegnati casualmente a interagire con uno tra GPT-4o, Llama 3 e Command R+ di Cohere, oppure a utilizzare una fonte di loro scelta per affrontare scenari medici simulati. Gli scenari variavano da un giovane con un forte mal di testa a una neomamma esausta.
Quando i modelli sono stati testati direttamente con il testo completo degli scenari clinici, hanno identificato correttamente le condizioni nel 94,9% dei casi. Tuttavia, quando interagivano con i partecipanti, l'accuratezza รจ scesa al 34,5%. In alcuni casi, i chatbot hanno fornito informazioni errate o incomplete, concentrandosi su elementi irrilevanti o suggerendo numeri di emergenza sbagliati.
Implicazioni e avvertenze
In un caso estremo, due utenti con sintomi simili di emorragia subaracnoidea hanno ricevuto consigli opposti: a uno รจ stato detto di sdraiarsi in una stanza buia, mentre all'altro รจ stato correttamente consigliato di cercare assistenza medica urgente.
La dottoressa Rebecca Payne, responsabile medico dello studio, ha sottolineato la difficoltร di sviluppare sistemi di intelligenza artificiale in grado di supportare le persone in aree sensibili come la salute. Ha avvertito che chiedere a un modello linguistico di grandi dimensioni informazioni sui propri sintomi puรฒ essere pericoloso, portando a diagnosi errate e mancato riconoscimento di situazioni di emergenza.
Contesto piรน ampio
Questo studio si aggiunge a una crescente preoccupazione per l'uso improprio dei chatbot in ambito sanitario. In precedenza, erano stati segnalati chatbot che si spacciavano per terapisti, fornendo credenziali false. OpenAI ha introdotto ChatGPT Health, una versione di ChatGPT progettata per fornire informazioni sanitarie piรน accurate, ma i ricercatori raccomandano di testare accuratamente gli LLM con utenti umani reali prima di implementazioni su vasta scala.
Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi trade-off.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!