I notebook dei ricercatori traboccano di analisi di interpretabilità meccanicistica: tabelle di selettività, diagrammi di circuito, liste di feature. Ogni lavoro produce una mappa parziale di ciò che un componente di rete codifica e di come interagisce, ma quei risultati restano intrappolati in esperimenti singoli — non sono componibili, non possono essere interrogati in linguaggio naturale, e non offrono una base diretta per audit o interventi a valle. Un gruppo di ricercatori ha ora attaccato proprio lo strato di rappresentazione che separa l’analisi dall’uso pratico, trattandolo come un collo di bottiglia valutabile in modo indipendente. La proposta si chiama Manifestation Unit Protocol ed è un meccanismo a tuple tipizzate (E, S, R, D, G) esteso con primitive per gli attention head delle architetture transformer (T).

Il protocollo organizza le statistiche per componente in campi strutturati, compilati automaticamente e interrogabili tramite recupero ibrido. L’idea è semplice ma ambiziosa: invece di lasciare che ogni studio produca annotazioni descrittive diverse e non confrontabili, si impone uno schema comune che cattura elementi essenziali come l’entità (E), lo stato (S), la relazione (R), la distribuzione (D) e il gradiente (G), con il campo T che assorbe le specificità dei meccanismi di attenzione. Il recupero successivo può avvenire per query, sfruttando l’indicizzazione dei campi piuttosto che basandosi esclusivamente su embedding o descrizioni testuali libere.

I test condotti su tre domini — visione generativa (beta-VAE), visione discriminativa (CNN) e linguaggio (GPT-2) — confermano due risultati principali. Prima di tutto, la struttura tipizzata supera in modo netto le baseline non strutturate nei compiti di recupero: avere campi espliciti su cui interrogare porta a risposte più precise rispetto a un approccio puramente descrittivo. In secondo luogo, i filtri di una CNN recuperati seguendo lo schema soddisfano criteri di sufficienza e necessità causale sotto controlli a budget bilanciato, un aspetto cruciale per chi volesse usare queste interpretazioni non solo per capire, ma per intervenire sul modello con garanzie formali.

Per i modelli linguistici, l’integrazione delle primitive per attention head funziona senza modifiche al protocollo, recupera i membri noti del circuito IOI (Indirect Object Identification) con budget di recupero allineati, e mette in luce un nucleo minimale a due campi — S ed R — che da solo basta a raggiungere buone prestazioni di recupero. Gli altri campi, secondo gli autori, risultano ridondanti o addirittura introducono interferenza. Questo risultato ha un sapore pratico: suggerisce che schemi di rappresentazione più leggeri, che sacrificano parte della ricchezza descrittiva, potrebbero essere più robusti per scopi di audit e ispezione automatica.

Nel contesto del deployment on-premise di Large Language Model, la proposta assume un valore particolare. Chi sceglie di eseguire modelli su infrastruttura propria — per motivi di sovranità dei dati, conformità normativa o controllo del costo totale di possesso — si trova spesso privo di strumenti di verifica del comportamento che vadano oltre metriche aggregate di performance. Avere un metodo standardizzato per trasformare le analisi di interpretabilità in dati strutturati e interrogabili potrebbe abilitare pipeline di audit continue: verificare se certi circuiti indesiderati (bias, shortcut, dipendenze spurie) sono attivi in un modello in produzione, senza dover ogni volta ri-analizzare tutto da capo. Siamo ancora lontani da una soluzione “chiavi in mano” — gli esperimenti su GPT-2 sono su scala ridotta e gli autori definiscono esplicitamente il protocollo come infrastruttura di schema, non come validazione a scala di frontiera. Tuttavia, l’idea di trattare la rappresentazione come un layer ingegnerizzabile, separato dall’analisi che lo genera e dall’uso che se ne fa, è esattamente il tipo di approccio modulare che serve per integrare l’interpretabilità nei workflow di MLOps on-premise.

Il Manifestation Unit Protocol non risolve d’incanto il problema della black box, ma indica una direzione chiara: standardizzare ciò che estraiamo dai modelli, in modo da poterlo usare in modo sistematico. Per chi oggi valuta stack locali e self-hosting per LLM, è un segnale che l’ecosistema degli strumenti di audit sta iniziando a maturare oltre la fase di esplorazione accademica.