Backdoor sleeper-agent negli LLM: una minaccia emergente

La sicurezza dei modelli linguistici di grandi dimensioni (LLM) รจ un tema sempre piรน critico. Tra le minacce piรน insidiose emergono le backdoor sleeper-agent, attacchi silenti e difficili da rilevare che possono compromettere l'intero sistema.

Questi attacchi, degni di un romanzo di fantascienza, consistono nell'inserimento di codice malevolo all'interno del modello durante la fase di addestramento. Questo codice rimane inattivo, come un agente dormiente, fino a quando non viene attivato da un input specifico, consentendo agli attaccanti di prendere il controllo del modello o di estrarre informazioni sensibili.

La difficoltร  di individuare queste backdoor risiede nella loro natura elusiva. A differenza degli attacchi tradizionali, non lasciano tracce evidenti e possono rimanere silenti per lunghi periodi di tempo, rendendo estremamente complesso il processo di rilevamento e rimozione.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.