Piccole modifiche, grandi modelli: come l’attivismo su Wikipedia orienta i valori degli LLM

Può un gruppetto di volontari influenzare il modo in cui un’intelligenza artificiale discute di benessere animale, semplicemente modificando Wikipedia? Uno studio appena pubblicato dimostra di sì. E il dato più sorprendente non è solo la conferma, ma la sproporzione dell’effetto: le sezioni curate dai Pro-Animal Wikipedians (PAW) sono diventate il 68% dei documenti più rilevanti per determinate domande su Llama 3.1 8B, pur rappresentando una frazione minuscola degli articoli totali.

L’impronta profonda di poche modifiche

Wikipedia compare in quasi tutti i dataset di addestramento dei Large Language Models, spesso con un peso maggiore rispetto al testo raccolto dal web. I PAW, un gruppo di attivisti che inserisce contenuti documentati sul benessere animale in voci pertinenti, hanno effettuato 125 interventi su 115 pagine. Gli autori della ricerca hanno poi applicato tecniche di attribuzione basata sul gradiente (Bergson; MAGIC) per tracciare l’influenza di quelle modifiche sul comportamento del modello. Il risultato: TrackStar, un metodo di attribuzione per recupero, ha rilevato che i segmenti modificati dai PAW dominavano le fonti più determinanti per le risposte a quesiti sul benessere animale, con un livello di significatività inferiore a 0,001.

Per chi si occupa di deployment, la lezione è netta. Non servono campagne massive: cambiamenti mirati in uno snodo informativo centrale come Wikipedia possono alterare in modo sensibile la distribuzione dei valori che un LLM esprime. Se un’azienda sta valutando di portare un modello on-premise – per mantenere il controllo su dati, inference e allineamento – dovrà considerare quanto il corpus di partenza possa veicolare sensibilità non dichiarate.

Cosa significa per chi sceglie l’on-premise

Chi installa un LLM nei propri server spesso lo fa per ragioni di privacy, sovranità dei dati o conformità normativa. Lo studio aggiunge una dimensione ulteriore: la filiera dei contenuti che hanno plasmato il modello. Wikipedia è onnipresente, e il suo meccanismo di editing aperto permette a collettivi molto focalizzati di seminare orientamenti che poi emergono come voce autorevole nelle risposte.

Il trade-off è evidente. Privarsi di Wikipedia nei dati di addestramento o di fine-tuning rischia di impoverire la conoscenza generale; accettarla significa ereditare anche gli effetti di distorsioni volute. Per un’organizzazione che opera in ambiti regolamentati o che vuole garantire un certo profilo etico, non basta più fidarsi del modello generalista. Serve audit sulle fonti, magari affiancato da un processo di curation interna o da un fine-tuning con dataset proprietari che controbilancino i pesi impliciti. AI-RADAR esplora abitualmente questi scenari di governance del dato per chi adotta stack locali, dove la trasparenza delle dipendenze informative diventa un parametro di scelta.

Un campanello d’allarme oltre il caso specifico

Lo studio, per quanto focalizzato sul benessere animale, segnala una dinamica più generale. Il web è pieno di nicchie attive e coordinate, e qualsiasi collettivo con una strategia di editing su piattaforme ad alta visibilità può modellare la postura di modelli futuri. Non si tratta di un attacco, ma del normale funzionamento di un ecosistema informativo dove la selezione delle fonti non è neutrale.

Per chi ha in carico infrastrutture on-premise, l’invito implicito è a considerare il ciclo di vita dei dati con la stessa attenzione dedicata all’hardware. Così come serve VRAM sufficiente per caricare modelli quantizzati, serve una mappatura delle influenze per evitare che il comportamento automatico tradisca le politiche aziendali. E il confine tra allineamento, censura e semplice consapevolezza diventerà sempre più sottile man mano che gli LLM entreranno nei processi decisionali.