Dimostrare che l'app LLM non registra i prompt: la via trasparente del self-hosting

Cosa serve per fidarsi di una chat basata su Large Language Models quando il provider assicura di non registrare alcun prompt? La domanda, sollevata in una discussione online, tocca il cuore di un problema irrisolto per chi sviluppa applicazioni LLM in proprio: passare dalla promessa alla prova verificabile.

La risposta ingenua – “fidati” – non regge, specie dopo anni di scandali legati alla raccolta occulta di dati. Il riferimento a Proton, il servizio email che ha costruito la propria reputazione su trasparenza e cifratura, è illuminante: Proton ha conquistato la fiducia con audit indipendenti, open source diffuso e architetture verificabili. Ma replicare quella formula nel mondo dei modelli linguistici comporta ostacoli non banali.

L’enclave sicura che non puoi permetterti

L’approccio più rigoroso dal punto di vista crittografico è il Trusted Execution Environment (TEE), un’area isolata del processore dove il codice opera in modo inaccessibile persino all’amministratore di sistema. Sarebbe la scelta ideale per eseguire inference senza che il gestore possa intercettare i dati. Il problema, come nota il developer nella sua riflessione, è che i TEE richiedono hardware specializzato e risorse non alla portata di un progetto hobbistico. AMD SEV, Intel SGX o NVIDIA Confidential Computing presuppongono server recenti e una complessità di configurazione che li relega all’enterprise. Per il self-hoster medio, la strada è sbarrata.

Open source e hash: trasparenza, ma fino a un certo punto

Il passo successivo, più accessibile, è rendere pubblico il repository e persino il modello, accompagnando il tutto con un hash che attesti l’integrità del codice in produzione. L’idea: se il sorgente è verificabile e l’hash corrisponde, l’utente può controllare che non ci siano funzioni di logging nascoste. Purtroppo questa strategia lascia ampi margini di incertezza. L’hash dimostra che il binario esaminato è identico a quello in esecuzione, ma non impedisce che l’ambiente sottostante (dal sistema operativo al livello di rete) intercetti le richieste. Inoltre, open source e hash non garantiscono che il servizio in produzione usi effettivamente quel codice e solo quello, senza modifiche a runtime o proxy malevoli.

La via on-premise e il controllo dei dati

Per chi spinge al massimo il principio di sovranità, l’unica certezza ottenibile è quella del deployment on-premise: l’utente installa ed esegue l’applicazione sulla propria macchina, esaminando in prima persona traffico di rete e processi. In questo scenario, lo sviluppatore cessa di essere un fornitore di cui fidarsi e diventa un semplice autore di codice. È il modello adottato da numerosi strumenti self-hosted come Ollama o LocalAI: il software è ispezionabile, l’esecuzione avviene in locale e ogni tentativo di esfiltrazione sarebbe rilevabile da firewall o strumenti di monitoring. Naturalmente, non tutti gli utenti hanno le competenze tecniche per eseguire un’analisi forense, ma la combinazione di codice aperto e controllo locale dei dati sposta l’onere della prova da chi promette a chi verifica.

Oltre il singolo progetto: cosa imparare per un deployment sovrano

La vicenda del developer hobbista mette in luce un trade-off universale: maggiore è il controllo che si vuole offrire all’utente, più oneroso diventa il deployment per lo sviluppatore. I TEE promettono la fiducia senza rinunciare a un servizio centralizzato, ma sono costosi e vincolati all’hardware. L’open source completo, pur essenziale, non basta a certificare il comportamento a runtime. Alla fine, la garanzia più solida si sposta verso l’utente finale, che deve poter eseguire e ispezionare il sistema nel perimetro della propria infrastruttura.

Per chi valuta deployment on-premise di LLM, esistono trade-off tra governance verificabile e gestione semplificata. La community AI-RADAR esplora framework analitici su /llm-onpremise per orientarsi in queste scelte. Il caso di questo piccolo progetto diventa così un promemoria: costruire fiducia significa spostare la prova dal terreno della narrazione a quello dell’ispezionabilità. E nel farlo, il self-hosting resta la leva più trasparente.