Tokenizzazione e modelli fondazionali per EHR strutturati

I modelli fondazionali addestrati su sequenze temporali di eventi clinici (EHR) mostrano grande potenziale nell'apprendimento di rappresentazioni adattabili dei pazienti. La tokenizzazione, ovvero il modo in cui queste sequenze vengono convertite in input discreti per il modello, determina quali informazioni vengono preservate, con quale efficienza vengono codificate e quali relazioni devono essere apprese.

Uno studio recente ha analizzato l'impatto delle scelte di tokenizzazione sulle performance e sull'efficienza computazionale di un transformer pre-addestrato su dati EHR pediatrici. Sono state valutate diverse strategie di tokenizzazione, variando la codifica degli eventi, la codifica temporale e l'annotazione del flusso di lavoro.

Risultati principali

La codifica congiunta degli eventi e la codifica temporale posizionale hanno superato le alternative nel 73/74 e 71/74 dei task di predizione clinica, rispettivamente, richiedendo al contempo il 39.5% e il 9.6% in meno di operazioni in virgola mobile durante il pre-training. L'efficacia della codifica congiunta รจ stata attribuita all'efficienza del binding locale, ovvero alla combinazione di coppie codice-attributo in singoli token, anzichรฉ alla loro suddivisione in token separati che il modello deve imparare ad associare.

La valutazione esterna su una coorte di pazienti adulti in terapia intensiva ha dimostrato che questo vantaggio si generalizza nonostante una notevole discrepanza nel vocabolario, mentre gli effetti temporali e del flusso di lavoro rimangono specifici per l'istituzione. Questi risultati evidenziano la tokenizzazione come un fattore chiave per migliorare sia le performance che l'efficienza dei modelli fondazionali per EHR.