LLM-as-a-Judge: Valutazioni Scalabili e Clinicamente Validate per la Sicurezza in Salute Mentale
Una ricerca recente esplora l'uso di Large Language Models (LLM) come “giudici” per valutare la sicurezza delle risposte dei modelli in contesti di salute mentale, specialmente per utenti con psicosi. Il metodo, che include criteri clinici e un dataset di consenso umano, mira a superare i limiti di scalabilità e validazione clinica delle attuali valutazioni. I risultati mostrano un'elevata concordanza tra LLM-as-a-Judge e il giudizio umano, offrendo un approccio promettente per valutazioni di sicurezza più robuste e scalabili.