La gestione dei dati sanitari per l'addestramento di modelli di apprendimento automatico presenta sfide significative a causa delle stringenti normative sulla privacy.

MultiGraSCCo: Un nuovo benchmark multilingue

Per superare queste difficoltà, è stato creato MultiGraSCCo, un benchmark multilingue per l'anonimizzazione dei dati. Questo strumento utilizza la traduzione automatica per generare dati sintetici in dieci lingue, mantenendo le annotazioni originali delle informazioni personali.

Dettagli del benchmark

Il benchmark include oltre 2.500 annotazioni di informazioni personali, adattate culturalmente e contestualmente per ciascuna lingua. La qualità delle traduzioni è stata convalidata da professionisti medici, garantendo l'accuratezza e l'utilità dei dati.

Applicazioni e vantaggi

MultiGraSCCo può essere utilizzato per:

  • Addestrare annotatori.
  • Validare annotazioni tra istituzioni.
  • Migliorare le prestazioni dei sistemi automatici di rilevamento delle informazioni personali.

La disponibilità di questo benchmark e delle relative linee guida favorisce la ricerca e lo sviluppo di soluzioni per la condivisione sicura dei dati sanitari, nel rispetto delle normative sulla privacy.