Gli LLM e la resistenza alla propaganda: il benchmark estone

La sfida della disinformazione e i Large Language Models

Con la crescente dipendenza dai Large Language Models (LLM) per ottenere risposte rapide a interrogativi complessi, i governi manifestano una comprensibile preoccupazione riguardo alla potenziale diffusione di propaganda da parte di questi sistemi, specialmente quella promossa da attori statali avversari. La capacità di un LLM di generare testo coerente e persuasivo lo rende uno strumento potente, ma anche vulnerabile, alla manipolazione o alla riproduzione involontaria di narrazioni distorte. Questa dinamica solleva questioni critiche sulla fiducia, sulla sicurezza nazionale e sulla sovranità dei dati.

In questo contesto, la necessità di valutare e mitigare il rischio che gli LLM possano veicolare contenuti problematici è diventata una priorità. Le organizzazioni e le istituzioni che considerano il deployment di LLM, in particolare in ambienti sensibili o air-gapped, devono assicurarsi che i modelli non solo siano performanti, ma anche intrinsecamente resistenti a forme di disinformazione e manipolazione ideologica. Ciò è fondamentale per mantenere il controllo sull'output informativo e garantire la compliance con normative interne ed esterne.

Il benchmark "Propaganda Resistance" dell'ELI

Per affrontare questa problematica, l'Estonian Language Institute (ELI), un'istituzione sostenuta dal governo estone, ha rilasciato un nuovo benchmark denominato "Propaganda Resistance". Questo strumento classifica decine di LLM in base alla loro capacità di evitare di "prendere posizione su argomenti che la Federazione Russa utilizza nelle sue narrazioni strategiche". Data la sua storia come ex membro dell'Unione Sovietica e la sua indipendenza relativamente recente, l'Estonia è particolarmente attenta alle narrazioni percepite come false, provenienti dal suo vicino orientale.

In collaborazione con Propastop, un collettivo di difesa estone gestito da volontari, l'ELI ha identificato 14 ampie categorie in cui le operazioni di influenza russe cercano di condizionare il dibattito pubblico. Queste categorie spaziano da narrazioni sullo status attuale della Crimea e giustificazioni per la guerra in Ucraina, alla storia della NATO e alla giustificazione dell'annessione russa degli stati baltici durante la Seconda Guerra Mondiale. Per ciascuna categoria, i ricercatori hanno sviluppato domande formulate in modo neutro, oppure con "false assunzioni" basate sulla propaganda russa, o ancora con l'intento malevolo di elicitare esplicitamente disinformazione dall'LLM. Le domande sono state poste ai modelli in inglese, estone e russo, per testare la loro robustezza linguistica e culturale.

Metodologia di valutazione e implicazioni per il deployment

La valutazione delle risposte degli LLM è stata affidata a un modello AI separato, calibrato per allinearsi con l'expertise degli specialisti di Propastop. Questo approccio garantisce una valutazione oggettiva e coerente, basata su criteri definiti da esperti umani. Un aspetto cruciale del benchmark è che i modelli sono stati giudicati sulla loro capacità di "respingere le narrazioni di propaganda, senza aiuto esterno" da ricerche web o altri strumenti. Questo significa che il benchmark misura la resistenza intrinseca del modello, piuttosto che la sua capacità di filtrare informazioni tramite meccanismi esterni.

Per le organizzazioni che valutano deployment on-premise di LLM, la capacità di un modello di mantenere la neutralità e di resistere a input distorti senza la necessità di complessi meccanismi di filtraggio esterni è fondamentale. Questo incide direttamente sulla sovranità dei dati, sulla compliance e sul controllo complessivo sull'output informativo, specialmente in ambienti sensibili o air-gapped dove le verifiche esterne sono limitate o impossibili. Inoltre, il TCO (Total Cost of Ownership) può essere significativamente influenzato: modelli che richiedono estesi processi di post-elaborazione o supervisione umana per filtrare la propaganda comportano costi operativi aggiuntivi e complessità infrastrutturali.

Verso LLM più resilienti e controllabili

L'iniziativa dell'Estonian Language Institute sottolinea l'importanza crescente di sviluppare e selezionare LLM che siano intrinsecamente resilienti alla disinformazione e alla propaganda. In un panorama digitale sempre più polarizzato, la capacità di un modello di fornire informazioni accurate e imparziali è tanto cruciale quanto la sua efficienza computazionale.

La domanda di LLM che offrano una resistenza intrinseca alla propaganda è un fattore chiave per CTO e decision-makers che prioritizzano la sovranità dei dati e il controllo nelle loro strategie AI on-premise o ibride. Questo tipo di benchmark fornisce uno strumento prezioso per valutare i trade-off tra diversi modelli e architetture, guidando le scelte verso soluzioni che non solo soddisfano i requisiti di performance, ma anche quelli etici e di sicurezza informativa. Per chi valuta deployment on-premise, AI-RADAR offre framework analitici su /llm-onpremise per valutare questi e altri trade-off, garantendo decisioni informate e allineate con le esigenze strategiche.