AI Act: dal 2 agosto watermark obbligatorio per i testi. Cosa cambia per i modelli locali

Non c’è più solo l’immagine: dal 2 agosto 2025 anche ogni frase, paragrafo o documento prodotto da un sistema di IA generativa dovrà portare con sé una firma cifrata, rilevabile a macchina. L’AI Act europeo stringe le maglie sulla tracciabilità dei contenuti sintetici, e questa volta il bersaglio è il testo. Non basterà un’etichetta visibile o un metadato nei file: il regolamento parla di due «strati» tecnici, efficaci, interoperabili e robusti, uno dei quali dovrà innestarsi direttamente nel segnale statistico dell’output — una sorta di filigrana invisibile, parente dei puntini che le stampanti laser spargono sui fogli.

Per chi sviluppa o distribuisce modelli, la scadenza trasforma la compliance in un prerequisito operativo. Le sanzioni arrivano fino a 35 milioni di euro o a una percentuale del fatturato annuo (il valore più alto), e si applicano a qualunque fornitore di strumenti di IA «raggiungibili» da un cittadino europeo, ovunque si trovi il server. La norma non distingue tra cloud e locale: che si tratti di ChatGPT o di un’istanza di llama.cpp in esecuzione su un laptop a Kuala Lumpur, se l’output può finire sotto gli occhi di un utente UE, scatta l’obbligo.

La doppia pelle del watermark testuale

L’AI Act non chiede un semplice flag «AI Generated». Il testo stesso deve diventare «machine-detectable» attraverso una combinazione di tecniche statistiche e, dove possibile, di firma crittografica dei metadati (standard come C2PA sono chiamati in causa). Il risultato è un’architettura a due livelli: una marcatura interna al contenuto, alterandone la distribuzione probabilistica in modo impercettibile ma verificabile, e un involucro esterno firmato che accompagna il file. La parola chiave è «robustezza»: il watermark deve resistere a manipolazioni elementari, ritagli, conversioni di formato.

Qui si apre il primo vero cortocircuito tecnico. I modelli linguistici di grandi dimensioni operano su probabilità; inserire un pattern statistico deterministico senza degradare la qualità dell’output è un esercizio di equilibriamo. Per i sistemi più leggeri — la norma cita «very simple OSS models» come possibile esenzione — l’impatto potrebbe essere gestibile. Ma i modelli di «rischio sistemico», elencati dalle autorità o ritenuti tali in base a benchmark di potenza computazionale e capacità, non godono di sconti. Nomi come Qwen 3.6, DeepSeek Flash, GLM o Kimi finirebbero sotto la lente, e con loro ogni progetto che li integri o li renda accessibili.

Il nodo on-premise: sovranità contro vincoli invisibili

Per chi ha scelto il deployment on-premise proprio per tenere i dati sotto controllo, la notizia ha un sapore amaro. L’obbligo di watermark non riguarda solo i giganti del cloud: riguarda tool come Ollama, LM Studio, vLLM, llama.cpp, Stable Diffusion Web UI, piattaforme come Hugging Face e qualunque API server che possa essere chiamata da un indirizzo IP europeo o da un turista in vacanza con VPN. Aderire diventa una questione di architettura software: le librerie di inference dovranno incorporare moduli di watermarking, e ogni aggiornamento di modello diventa potenzialmente una nuova valutazione di conformità.

L’impianto sanzionatorio è tale da scoraggiare interpretazioni lasche. Il regolamento prevede anche un codice di condotta volontario, ma ignorarlo alza il profilo di rischio. In più, il distributore che dichiara «il mio modello non è a rischio sistemico» si assume la responsabilità legale: se l’UE lo classifica diversamente, il conto arriva in tribunale. Per startup e progetti open source, il confine tra sviluppo agile e esposizione legale si fa sottile.

Più che un banner: l’alba dell’AI labeling pervasivo

La metafora del cookie banner calza a pennello, ma in versione moltiplicata. Se oggi ogni sito avverte della presenza di cookie, domani ogni porzione di web generata da AI — testi, immagini, video, voiceover — potrebbe dover esibire la propria natura sintetica. Non è fantascienza normativa: la Commissione stima che entro pochi anni la stragrande maggioranza dei contenuti online sarà prodotta o ritoccata con IA. L’AI Act spinge verso un ecosistema in cui la trasparenza diventa parte del segnale, non un’etichetta a posteriori. Questo cambia anche i calcoli di TCO per chi gestisce infrastrutture di inference: la compliance non è più una voce accessoria, ma un costo operativo che incide su pipeline, framework di serving e tempi di aggiornamento.

In questo scenario, chi valuta deployment on-premise per ragioni di sovranità dei dati si trova a dover pesare un nuovo tipo di «costo di proprietà» — quello della certificazione continua dell’output. AI-RADAR segue l’evoluzione delle soluzioni tecniche e dei framework che potrebbero automatizzare la marcatura, ma la strada è in salita. Il regolamento è chiaro: dal 2 agosto, produrre testo con IA significa consegnare ogni token a un sistema di riconoscibilità che non ammette eccezioni per chi serve, anche indirettamente, il mercato europeo.