Quando l’accelerometro prevede il rischio cardiaco: il benchmark che mancava

Un punto di riferimento per la salute cardiometabolica

Il machine learning su dati strutturati è onnipresente in medicina, ma i benchmark esistenti non riflettono le complessità del mondo reale: campionamenti statistici complessi, sovrarappresentazione demografica e necessità di equità tra sottogruppi. Un team di ricercatori ha appena colmato questa lacuna con il NHANES Accelerometry Cardiometabolic Benchmark, un dataset derivato dalle rilevazioni NHANES 2003-2006. Il benchmark include 1.381 adulti con dati di accelerometria da anca, analisi del sangue a digiuno, informazioni dietetiche e misurazioni antropometriche.

Tre approcci a confronto

I ricercatori hanno testato tre metodi di apprendimento tabulare — ridge regression, XGBoost e il foundation model TabPFN v2 — per prevedere tre marcatori chiave: emoglobina glicata (HbA1c), trigliceridi a digiuno e proteina C-reattiva (CRP), usando le caratteristiche dell'attività fisica e covariate dello stile di vita. TabPFN v2 ha ottenuto le migliori performance complessive, con un R² di 0.156 per HbA1c e 0.383 per CRP. I trigliceridi, invece, sono rimasti in gran parte imprevedibili, con un R² sostanzialmente nullo. Il lavoro introduce anche metriche di incertezza, fondamentali per decisioni cliniche.

Perché TabPFN v2 fa la differenza

TabPFN v2 (Tabular Prior-data Fitted Network) è un modello transformer preaddestrato su dati sintetici, progettato per l'apprendimento in contesto su dati tabulari. A differenza di XGBoost, non richiede una fase di training su ogni nuovo dataset: sfrutta l'inference diretta, rendendolo estremamente rapido in scenari dove i dati sono di dimensioni contenute, come in molti studi clinici. Questo lo rende un candidato interessante per ambienti dove la potenza di calcolo è limitata, come deployment on-premise in strutture sanitarie che non possono o non vogliono affidarsi al cloud.

Sovranità dei dati e inference locale

Per chi opera nel settore medico, la privacy dei pazienti è un vincolo non negoziabile. L'utilizzo di modelli come TabPFN v2, che eseguono inference senza bisogno di condividere dati con server esterni, si sposa con architetture self-hosted e rispetta normative come il GDPR. Sebbene il benchmark non affronti direttamente specifiche hardware, è evidente che modelli ottimizzati per dati tabulari richiedono risorse inferiori rispetto a LLM da miliardi di parametri: una GPU consumer con pochi gigabyte di VRAM può essere sufficiente per l'inference, rendendo percorribile il deployment in un armadio server ospedaliero. La strada verso l'AI in medicina passa da soluzioni snelle e verificabili, dove la quantization e il controllo locale diventano alleati della sicurezza.

Il framework più ampio

Questo benchmark non è solo un esercizio accademico: segnala che i foundation model stanno uscendo dalla nicchia del linguaggio naturale per affrontare il tabulare, il formato dati dominante in sanità. Per chi valuta stack on-premise, il trade-off è chiaro: meno flessibilità interpretativa rispetto ai modelli tradizionali, ma maggiore rapidità e rispetto della sovranità dei dati. Su AI-RADAR seguiamo con attenzione l'evoluzione di strumenti che permettono di portare l'intelligenza artificiale dove i dati risiedono, senza compromessi.