Corte Suprema svizzera testa Heretic, l'LLM senza censure per i tribunali

Quando un giudice interroga un assistente AI su una norma penale e il sistema risponde con un diniego categorico, la fiducia nello strumento si sgretola. Non è un’ipotesi remota: il fenomeno del “over-alignment” – l’eccesso di censure preventive degli LLM – affligge anche le istituzioni. Per questo la Corte Suprema Federale Svizzera ha deciso di valutare Heretic, un modello aperto modificato tramite abliterazione per eliminare i rifiuti ingiustificati.

Il paradosso dell’allineamento eccessivo

L’addestramento degli LLM incorpora filtri etici che, per precauzione, portano spesso a bloccare richieste perfettamente lecite. In ambito giudiziario, dove terminologia sensibile e riferimenti a testi di legge complessi sono la norma, il problema diventa sistemico. Una corte che tenta di analizzare precedenti o redigere bozze con un assistente AI può trovarsi di fronte a muri di “non posso rispondere” del tutto infondati. Questo inceppo frena l’adozione e mina l’efficacia degli strumenti di supporto decisionale.

Abliterazione: rimuovere il freno a mano

La tecnica indagata dal team della Corte – descritta nel paper “Measuring & Mitigating Over-Alignment for LLMs in Multilingual Criminal Law Courts” – consiste nell’abliterazione. A differenza del fine-tuning, che riallinea il modello su nuovi dati, l’abliterazione va a intaccare direttamente i meccanismi interni che generano i rifiuti. Heretic ne è l’esempio più noto: derivato da Llama, è stato “liberato” da gran parte dei vincoli di safety. La sezione 5.2 dello studio, come anticipato nel post originale, attribuisce a Heretic risultati favorevoli nel trattare richieste legittime in campo penale multilingue.

Cosa significa per chi sceglie l’on-premise

La vicenda elvetica interroga direttamente chi progetta stack locali per l’inference. Un tribunale che tratta dati sensibili non può affidarsi ad API cloud: deve mantenere il controllo completo del modello, dai pesi fino ai log. Valutare Heretic non è un gesto simbolico, ma un test su un artefatto concreto che bilancia utilità e rischi. L’abliterazione riduce i falsi rifiuti, ma espone anche a un potenziale uso improprio: per questo l’impiego in un ambiente self-hosted, con perimetri di sicurezza definiti e audit granulari, diventa il contesto minimo per qualsiasi valutazione seria. AI-RADAR osserva che la scelta del deployment on-premise non è semplicemente una preferenza tecnica, ma l’architrave per gestire modelli dal comportamento meno prevedibile senza delegare la responsabilità a terzi.

Oltre lo slogan: nessun bando, ma una prova di maturità

Il titolo provocatorio della discussione (“stanno per bandire i modelli abliterati?”) serve da esca; la realtà è molto più pragmatica. La Corte Suprema Svizzera non sta demonizzando alcuna tecnicia, al contrario sta cercando soluzioni per un problema concreto. L’iniziativa segnala un cambio di passo per le organizzazioni che detengono dati regolati: la sovranità digitale passa dalla capacità di ispezionare, adattare e misurare modelli aperti in ambienti controllati. Se l’esperimento produrrà linee guida replicabili, potrebbe ispirare altre istituzioni a costruire il proprio stack di inference con LLM custom, allontanandosi dall’offerta monolitica dei fornitori cloud.