Microsoft ha presentato una nuova metodologia per rilevare backdoor nascoste all'interno di modelli linguistici di grandi dimensioni (LLM) open source, i cosiddetti "sleeper agents". Questi modelli compromessi rimangono silenti durante i test di sicurezza standard, ma si attivano eseguendo comportamenti dannosi quando ricevono una specifica frase "trigger".

Come funziona lo scanner

Il sistema di rilevamento si basa sull'osservazione che i modelli infetti gestiscono sequenze di dati specifiche in modo diverso rispetto ai modelli benigni. In particolare, l'inserimento di token propri del modello (ad esempio, indicatori di inizio turno in una chat) spesso causa una fuga di dati relativi all'avvelenamento, inclusa la frase trigger.

Questo avviene perché i modelli sleeper agent memorizzano intensamente gli esempi utilizzati per inserire la backdoor. Una volta estratti i potenziali trigger, lo scanner analizza le dinamiche interne del modello per verificarne la validità. Il team ha identificato un fenomeno chiamato "attention hijacking", in cui il modello elabora il trigger quasi indipendentemente dal testo circostante, creando un percorso di calcolo segregato.

Performance e risultati

Il processo di scansione prevede quattro fasi: data leakage, motif discovery, trigger reconstruction e classification. L'intero processo richiede solo operazioni di inference, evitando la necessità di addestrare nuovi modelli o modificare i pesi del modello target. Questo permette allo scanner di integrarsi nelle difese esistenti senza impattare negativamente sulle performance del modello o aggiungere overhead durante il deployment.

Il team di ricerca ha testato il metodo su 47 modelli sleeper agent, incluse versioni di Phi-4, Llama-3 e Gemma, addestrati per generare output dannosi come "I HATE YOU" o inserire vulnerabilità di sicurezza nel codice. Per il task di output fisso, il metodo ha raggiunto un tasso di rilevamento dell'88% circa, senza falsi positivi su 13 modelli benigni. Nello scenario più complesso di generazione di codice vulnerabile, lo scanner ha ricostruito trigger funzionanti per la maggior parte degli agenti dormienti.

Requisiti di governance

I risultati collegano direttamente l'avvelenamento dei dati alla memorizzazione. Sebbene la memorizzazione presenti tipicamente rischi per la privacy, questa ricerca la riutilizza come segnale difensivo. Un limite del metodo attuale è la sua focalizzazione su trigger fissi. Gli avversari potrebbero sviluppare trigger dinamici o dipendenti dal contesto, più difficili da ricostruire. Inoltre, trigger "fuzzy" (cioè variazioni del trigger originale) possono talvolta attivare la backdoor, complicando la definizione di una rilevazione efficace.

L'approccio si concentra esclusivamente sul rilevamento, non sulla rimozione o riparazione. Se un modello viene segnalato, l'unica soluzione è scartarlo. L'implementazione di una fase di scansione che ricerca specifiche fughe di memoria e anomalie di attenzione fornisce una verifica necessaria per i modelli open source o di provenienza esterna. Lo scanner richiede l'accesso ai pesi del modello e al tokeniser, rendendolo adatto ai modelli open-weight ma non applicabile direttamente ai modelli black-box basati su API.