È stato pubblicato un nuovo dataset contenente dati relativi alle ospedalizzazioni per dengue in Brasile tra il 1999 e il 2021. Il dataset, disponibile su Zenodo, è stato creato per migliorare la granularità temporale dei dati originariamente mensili, rendendoli più adatti all'addestramento di modelli di intelligenza artificiale per la previsione epidemiologica.
Dettagli del Dataset
Il dataset armonizza serie temporali a livello municipale relative alle ospedalizzazioni per dengue in tutto il Brasile e le disaggrega a risoluzione settimanale (settimane epidemiologiche) tramite un protocollo di interpolazione. Questo protocollo include una fase di correzione per preservare i totali mensili.
La validità statistica e temporale di questa disaggregazione è stata valutata utilizzando un dataset di riferimento ad alta risoluzione proveniente dallo stato di San Paolo (2024), che fornisce contemporaneamente conteggi mensili e settimanali. Sono state confrontate tre strategie: interpolazione lineare, jittering e spline cubica. I risultati hanno indicato che l'interpolazione spline cubica ha ottenuto la massima aderenza ai dati di riferimento, e questa strategia è stata quindi adottata per generare serie settimanali per il periodo 1999-2021.
Variabili Esplicative
Oltre alle serie temporali delle ospedalizzazioni, il dataset include un insieme completo di variabili esplicative comunemente utilizzate nella modellazione epidemiologica e ambientale, come la densità demografica, le emissioni di CH4, CO2 e NO2, gli indici di povertà e urbanizzazione, la temperatura massima, la precipitazione media mensile, l'umidità relativa minima e la latitudine e longitudine municipale. Queste variabili sono state disaggregate temporalmente seguendo lo stesso schema per garantire la compatibilità multivariata.
Documentazione e Qualità
La pubblicazione include la provenienza, la struttura, i formati, le licenze, le limitazioni e le metriche di qualità del dataset (MAE, RMSE, R2, KL, JSD, DTW e il test KS), e fornisce raccomandazioni per l'uso nell'analisi multivariata di serie temporali, negli studi di salute ambientale e nello sviluppo di modelli di machine learning e deep learning per la previsione di epidemie.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!