Identificabilità computazionale: quando l'inference causale deve fare i conti con dati finiti

L'identificabilità di un parametro o di un effetto causale è sempre stata una questione di informazione disponibile. Tradizionalmente, se hai un grafo causale e dati per alcune variabili, l'algoritmo di identificazione ti dice se puoi calcolare l'effetto, in linea di principio, sotto condizioni ideali (campioni infiniti, distribuzioni note). Ma cosa succede quando i dati sono pochi, il grafo è ambiguo o le risorse di calcolo sono limitate?

Il nuovo framework dell'identificabilità computazionale, proposto da un team di ricerca e pubblicato con codice su GitHub, prende il problema da un'altra angolazione. Invece di chiedersi se l'effetto è identificabile in un senso teorico e asintotico, si chiede: esiste una procedura di ricerca finita che, con i dati effettivamente a disposizione, produce uno stimatore empirico entro un margine di errore accettabile? Se la risposta è sì, allora l'identificabilità è soddisfatta, ma in modo condizionato: dipende dagli assunti a priori sulla distribuzione dei parametri e, soprattutto, dalla procedura di calcolo stessa.

Dal principio alla pratica

La nozione classica di identificabilità teorica, spiegano gli autori, assume proprietà asintotiche e quantità infinite di dati, un lusso che raramente si concretizza al di fuori dei laboratori. L'identificabilità computazionale, al contrario, definisce un processo empirico e concreto: una ricerca computazionale che, se trova uno stimatore valido, certifica la fattibilità della stima causale in quel contesto specifico.

Gli esperimenti condotti mostrano che questo approccio riesce a rispondere a domande spinose: campioni finiti e molto piccoli, criteri grafici ambigui (dove i metodi tradizionali faticano), dati osservazionali e interventistici mescolati, e persino quantità controfattuali. In tutti questi scenari, la nuova cornice computazionale ha permesso di determinare se e come un effetto potesse essere estratto dai dati reali, non da quelli sognati.

Perché interessa a chi opera on-premise

Per i lettori di AI-RADAR, abituati a valutare stack locali e deployment on-premise, il messaggio è chiaro: la fattibilità di un'inference causale non può essere data per scontata solo perché esiste una formula identificativa su carta. Bisogna tener conto dei vincoli computazionali e del volume di dati effettivamente disponibile all'interno dell'organizzazione.

In un contesto on-premise, dove la sovranità dei dati è irrinunciabile e le quantità di dati potrebbero essere limitate dalla natura del dominio (si pensi a settori come la sanità o la finanza con dati sensibili), l'identificabilità computazionale offre uno strumento per decidere ex ante quali domande causali possono avere una risposta affidabile con l'infrastruttura e i dati presenti. Al contrario, può segnalare che certi effetti non sono stimabili senza dati aggiuntivi o senza un salto nella potenza di calcolo, incidendo direttamente sulle decisioni di investimento hardware.

La procedura di ricerca introdotta, condizionata alla scelta degli iperparametri e agli assunti a priori, introduce inoltre una nuova voce nel TCO (TCO): il tempo e le risorse di GPU o CPU necessarie per esplorare lo spazio degli stimatori. In un ambiente on-premise con budget di calcolo fissi, questo costo computazionale deve essere messo in conto al pari della precisione statistica.

Meno ipotesi, più calcolo

L'articolo segna un passaggio culturale: da una causalità ideale a una causalità computabile. Non basta più che un effetto sia identificabile “in principio”; deve esserlo con i dati e i calcolatori che abbiamo qui e ora. Per chi fa ricerca operativa in azienda, integrare questo tipo di analisi nei propri workflow può fare la differenza tra un modello che funziona in produzione e uno che resta un esercizio teorico.

Il codice è disponibile su GitHub, offrendo un punto di partenza concreto per sperimentare e adattare l'approccio ai propri dataset e ai propri stack di calcolo.