LiveMedBench: Un Nuovo Standard per la Valutazione di LLM Medici

La valutazione rigorosa dei modelli linguistici di grandi dimensioni (LLM) รจ fondamentale, soprattutto in contesti clinici delicati. I benchmark medici attuali presentano limitazioni significative, tra cui la contaminazione dei dati e la mancata aderenza all'evoluzione rapida delle conoscenze mediche.

LiveMedBench affronta queste sfide attraverso:

  • Aggiornamenti continui: Raccolta settimanale di casi clinici reali da comunitร  mediche online.
  • Assenza di contaminazioni: Rigorosa separazione temporale tra i dati di addestramento del modello e i dati di test.
  • Valutazione basata su criteri: Un framework automatizzato che scompone le risposte in criteri granulari specifici per ogni caso, allineandosi maggiormente con il giudizio dei medici esperti.

Architettura e Dati

LiveMedBench include 2.756 casi reali in 38 specialitร  mediche e diverse lingue, abbinati a 16.702 criteri di valutazione unici. Un framework multi-agente filtra il rumore dai dati grezzi e ne convalida l'integritร  clinica.

Performance e Analisi

La valutazione di 38 LLM ha rivelato che il modello con le performance migliori raggiunge solo il 39,2%. L'84% dei modelli mostra un calo delle performance sui casi successivi al cutoff temporale, confermando i rischi di contaminazione dei dati. L'analisi degli errori indica che l'applicazione contestuale, piuttosto che la conoscenza fattuale, rappresenta il collo di bottiglia principale.

Per chi valuta deployment on-premise, esistono trade-off che AI-RADAR analizza in dettaglio su /llm-onpremise.