Trump vieta il noise infusion nei dati del censimento: è un disastro per la trasparenza

Un cambiamento radicale, approvato a porte chiuse e senza il contributo degli esperti, sta mettendo in allarme chiunque lavori con i dati pubblici americani. Il 4 giugno l'amministrazione Trump ha pubblicato un ordine interno, intitolato Disclosure Avoidance for Statistical Products, che proibisce qualsiasi forma di noise infusion per la diffusione di statistiche ufficiali. In pratica, al Census Bureau e al Bureau of Economic Analysis viene imposta una gerarchia di strumenti per proteggere la riservatezza: prima il coarsening – l'aggregazione e l'arrotondamento delle cifre –, e solo come ultima risorsa la suppression, cioè la rimozione completa dei dati.

La tecnica vietata, il noise infusion, è da decenni uno standard accettato e scientificamente fondato: introduce una leggera distorsione casuale nei microdati, in modo che le statistiche pubblicate non riflettano esattamente le informazioni sensibili dei singoli rispondenti. È una forma di tutela della privacy che ha retto a scrutini accademici e legali, e che ha permesso di bilanciare l'utilità pubblica dell'informazione con la promessa di confidenzialità fatta a cittadini e imprese.

Il nodo tecnico: perché noise infusion, coarsening e suppression non sono equivalenti

Forzare il Census Bureau a usare il coarsening come prima scelta significa, nella pratica, dover accorpare realtà piccole in categorie più ampie. Le comunità rurali, i settori industriali di nicchia, le statistiche sui veterani o sui lavoratori in aree colpite da calamità naturali vengono annegati in macro-aggregati, oppure scompaiono del tutto se la legge non permette di arrotondare ulteriormente. La suppression, contemplata come extrema ratio, equivale a buchi neri nel dataset: righe di asterischi che rendono inutilizzabili intere tabelle.

Il problema non è teorico. John Abowd, ex capo della ricerca metodologica al Census Bureau, ha elencato su LinkedIn i prodotti statistici a rischio. Molti di questi usano noise infusion e ora sono in bilico: OnTheMap for Emergency Management, che fornisce dati in tempo reale sulla popolazione durante gli uragani o gli incendi; i Quarterly Workforce Indicators, fonte primaria su salari, assunzioni e dinamiche del lavoro; le statistiche sulla formazione di nuove imprese e sull'occupazione giovanile post-istruzione.

Contorsioni retroattive e pagine cancellate

L'ordine ha effetto retroattivo, creando un clima di incertezza che ricorda vecchi episodi di cancellazione di dati scientifici. Pochi giorni dopo l'emanazione, diverse pagine del sito del Census Bureau dedicate a noise infusion e differential privacy sono state rimosse. Alcune sono state ripristinate, ma la mossa ha innescato un'operazione di archiviazione preventiva da parte del Data Rescue Project, un'iniziativa nata proprio per proteggere i dataset federali a rischio.

La comunità statistica si è compattata. Cinque associazioni – tra cui la Population Association of America e il Council of Professional Associations on Federal Statistics – hanno rilasciato una dichiarazione congiunta in cui si legge che l'ordine «sovverte processi sviluppati in decenni per favorire trasparenza e fiducia pubblica, creando uno scenario in cui ci sarà meno privacy per i nostri dati personali, o dati meno utilizzabili, oppure entrambi.» Steve Pierson, direttore delle politiche scientifiche dell'American Statistics Association, ha parlato di «manette» messe agli enti statistici.

Cosa c'entra con la sovranità del dato e i deployment on-premise

Sebbene la vicenda riguardi la statistica ufficiale, le sue ombre si allungano fin dentro i dibattiti che incrociamo su AI-RADAR. Il noise infusion non è altro che un antenato della differential privacy, la stessa famiglia di tecniche che oggi viene applicata (o si vorrebbe applicare) al training di Large Language Models per evitare la memorizzazione di dati personali e ridurre il rischio di estrazione da parte di attaccanti. Quando un'organizzazione valuta un deployment on-premise – che sia per questioni di compliance GDPR, controllo sui flussi di dati o Total Cost of Ownership –, una delle domande centrali è: come posso rendere disponibili dati aggregati o modelli preservando la riservatezza delle fonti originali? L'ordine firmato da Trump mostra cosa succede quando si abbandona un metodo di protezione della privacy senza una valida alternativa: si finisce per pubblicare meno informazione, oppure per esporla senza adeguate difese.

Il parallelismo è calzante. Chi gestisce stack locali per l'inference o il fine-tuning di LLM su dati sensibili – cartelle cliniche, transazioni finanziarie, comunicazioni aziendali – deve spesso scegliere tra privacy e utilità. Coarsening e suppression, traslate nel contesto AI, equivalgono a eliminare interi cluster di dati dal training o a diluirli al punto da renderli statisticamente irrilevanti. Il noise infusion, invece, può consentire di addestrare modelli utili senza svelare singoli record. Il fatto che una decisione politica possa buttare a mare, con un tratto di penna, una tecnica collaudata, dovrebbe far riflettere chiunque progetti sistemi che dipendono da dati pubblici o che devono rispettare regimi di privacy stringenti.

La posta in gioco oltre la statistica

La mossa dell'amministrazione non è isolata. L'anno scorso America First Legal, gruppo legale co-fondato dal vice capo di gabinetto Stephen Miller, ha tentato di forzare la pubblicazione dei dati grezzi del censimento 2020 attaccando il sistema di differential privacy del Census Bureau. I giudici hanno respinto il ricorso per decorrenza dei termini, ma il caso è stato ripresentato a febbraio. E sempre Trump, ad agosto, ha scritto su Truth Social che le persone presenti illegalmente negli Stati Uniti «non saranno contate» nel censimento del 2030, sfidando due secoli di prassi costituzionale. Nel frattempo, l'amministrazione ha già tagliato quattro dei sei siti di test previsti per il prossimo censimento negli stati del Sud, rallentando la sperimentazione nelle aree con i tassi di risposta più bassi.

Eliminare il noise infusion non è una scelta tecnica: è un atto che ridisegna i confini dell'informazione pubblica. Per chi fa giornalismo di dati, per chi disegna politiche pubbliche, per chi sviluppa modelli di machine learning su fonti aperte, l'affidabilità e la granularità dei dati sono tutto. Quando l'aggregazione forzata e la cancellazione diventano l'unica via consentita, a perdere sono le decisioni informate, le ricerche indipendenti e, in ultima analisi, la sovranità decisionale di comunità e imprese che non possono più leggere la propria realtà attraverso numeri attendibili.