PACE: un framework neuro-simbolico per spiegazioni controfattuali realistiche e vincolate

Spiegare perché un sistema di machine learning ha preso una certa decisione è una delle sfide più spinose dell’AI spiegabile. Ma se la spiegazione proposta non è realizzabile nel mondo reale – perché suggerisce azioni vietate da norme interne o incompatibili con la realtà dell’utente – perde ogni utilità pratica. È un problema noto a chi lavora con le spiegazioni controfattuali: modifiche minime all’input che ribaltano l’esito di un modello, ma spesso ignorano i vincoli del dominio.

Il framework PACE, descritto in un nuovo studio, affronta la questione unendo due mondi: reti neurali per la classificazione e ragionamento simbolico per imporre regole sensate. L’architettura è modulare: un modello predittivo (nell’esperimento, un multilayer perceptron) produce la previsione iniziale, mentre uno strato basato su Answer Set Programming (ASP) si occupa di generare alternative plausibili, scartando le modifiche che violano le condizioni prestabilite. Si può, per esempio, alterare il livello di istruzione o le ore lavorate, ma non attributi immutabili come l’età o il genere.

Come funziona PACE

Il cuore dell’approccio è la separazione netta tra la componente neurale e quella simbolica. La prima resta addestrata solo sui dati, la seconda codifica la conoscenza del dominio in forma dichiarativa. Quando si cerca una spiegazione controfattuale, il sistema non si limita a trovare la variazione più piccola che inverte la decisione: verifica che quella variazione sia effettivamente ammissibile secondo le regole definite. Il vantaggio è duplice: le spiegazioni diventano più plausibili per un umano e, aspetto cruciale, si riduce il rischio di suggerimenti irrealizzabili o addirittura dannosi.

L’impostazione è model-agnostic, quindi applicabile a diversi classificatori e domini. Il caso di studio condotto sul dataset Adult Income – un benchmark classico per prevedere se un individuo supera una soglia di reddito – mostra bene il compromesso in gioco. Con vincoli simbolici stringenti, la percentuale di spiegazioni “valide” (cioè che davvero cambiano la previsione) può calare leggermente, ma la plausibilità e la fattibilità di quelle prodotte crescono in modo significativo. In altre parole, si accetta qualche rinuncia in termini di copertura pur di ottenere raccomandazioni che abbiano senso nel contesto reale.

Validità contro plausibilità: il compromesso

I risultati evidenziano un trade-off che dovrebbe far riflettere chi progetta sistemi di supporto decisionale. Nei setting tradizionali, la validità pura – “cambia questo e ottieni l’esito opposto” – è spesso l’unica metrica considerata. Ma un conto è suggerire a un utente di incrementare le ore di lavoro settimanali, un conto è proporre un valore assurdo come 200 ore. PACE incanala la ricerca controfattuale entro binari realistici, dimostrando che l’integrazione di conoscenza simbolica migliora la qualità delle spiegazioni senza stravolgere l’architettura predittiva sottostante.

Per chi lavora in settori regolamentati – finanza, sanità, pubblica amministrazione – dove i modelli spesso girano on-premise per garantire sovranità e riservatezza dei dati, questa capacità di incorporare regole di business direttamente nel processo di spiegazione è tutt’altro che accessoria. Significa poter giustificare le decisioni automatiche non solo con “il modello ha rilevato questo pattern”, ma con “la modifica suggerita è coerente con le policy aziendali e le normative vigenti”. Un passo avanti verso un’AI che non solo funziona, ma sa anche argomentare in modo aderente al contesto.