La truffa del troiano nel vocabolario: sabotaggio stealthy dei metodi di composizione LLM
Il mondo degli intelligenze artificiali è sempre più dipendente dai metodi di composizione LLM, che consentono di remixare capacità da diverse fonti. Tuttavia, un nuovo attacco scoperto sul sistema di composizione LLM può compromettere la sicurezza dei modelli.
I ricercatori hanno creato un "breaker token" che, quando transplantato in una base model, può sabotare il funzionamento del modello senza alterare la sua utilità. Questo attacco introduce una vulnerabilità nella catena di approvvigionamento del sistema e mette in discussione la sicurezza dei modelli LLM.
Attacchi e vulnerabilità
L'attacco è stato possibile grazie alla capacità del "breaker token" di essere funzionalmente inerente in una base model, ma di poter essere trasformato in un'alta-salienza caratteristica malvagia dopo il transplant. Ciò crea un gap di realizzabilità asimmetrico che saboteggia la base model's generazione senza alterare la sua utilità.
Formalizzazione e attacchi
I ricercatori hanno formalizzato questo attacco come un problema ottimale dualistico e lo hanno instantziato usando un solver sparsivo. L'attacco è stato dimostrato essere training-free e raggiungere la mimetica spettro a evitare l'individuazione degli outlier, mentre mostrando persistenza strutturale contro il fine-tuning e la fusione dei pesi.
Rischio nella catena di approvvigionamento del sistema
Questo attacco mette in discussione la sicurezza dei modelli LLM e introduce una vulnerabilità nella catena di approvvigionamento del sistema. È fondamentale che i ricercatori e gli sviluppatori contino a monitorare e migliorare la sicurezza dei modelli LLM.
Codice disponibile
Il codice dell'attacco è stato reso disponibile sul repository GitHub https://github.com/xz-liu/tokenforge
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!