Estrazione di entità cliniche: un nuovo approccio per ridurre il rumore

L'estrazione precisa di entità cliniche da note e report medici è fondamentale. I modelli encoder, in particolare BERT, ottimizzati per il Named Entity Recognition (NER) si sono dimostrati efficienti in questo compito. Tuttavia, raggiungere un'alta precisione rimane una sfida.

Un nuovo studio presenta un modello di Noise Removal (NR) che migliora significativamente la precisione dei modelli NER basati su BERT. Questo modello NR analizza le sequenze di probabilità generate dal modello NER, classificando le predizioni come "deboli" o "forti".

Superare i limiti delle soglie di probabilità

Un approccio semplice per filtrare le predizioni si baserebbe su soglie di probabilità. Tuttavia, a causa delle caratteristiche della funzione SoftMax, le architetture Transformer tendono ad assegnare punteggi di confidenza elevati anche a predizioni incerte. Il modello NR proposto supera questo limite adottando una strategia di modellazione supervisionata.

Il modello NR sfrutta funzionalità avanzate come la Probability Density Map (PDM), che cattura l'effetto Semantic-Pull osservato negli embedding Transformer. Questo approccio consente al modello di classificare le predizioni con maggiore accuratezza, riducendo i falsi positivi dal 50% al 90% in vari modelli NER clinici.