La truffa del troiano nel vocabolario: sabotaggio stealthy dei metodi di composizione LLM

Il mondo degli intelligenze artificiali è sempre più dipendente dai metodi di composizione LLM, che consentono di remixare capacità da diverse fonti. Tuttavia, un nuovo attacco scoperto sul sistema di composizione LLM può compromettere la sicurezza dei modelli.

I ricercatori hanno creato un "breaker token" che, quando transplantato in una base model, può sabotare il funzionamento del modello senza alterare la sua utilità. Questo attacco introduce una vulnerabilità nella catena di approvvigionamento del sistema e mette in discussione la sicurezza dei modelli LLM.

Attacchi e vulnerabilità

L'attacco è stato possibile grazie alla capacità del "breaker token" di essere funzionalmente inerente in una base model, ma di poter essere trasformato in un'alta-salienza caratteristica malvagia dopo il transplant. Ciò crea un gap di realizzabilità asimmetrico che saboteggia la base model's generazione senza alterare la sua utilità.

Formalizzazione e attacchi

I ricercatori hanno formalizzato questo attacco come un problema ottimale dualistico e lo hanno instantziato usando un solver sparsivo. L'attacco è stato dimostrato essere training-free e raggiungere la mimetica spettro a evitare l'individuazione degli outlier, mentre mostrando persistenza strutturale contro il fine-tuning e la fusione dei pesi.

Rischio nella catena di approvvigionamento del sistema

Questo attacco mette in discussione la sicurezza dei modelli LLM e introduce una vulnerabilità nella catena di approvvigionamento del sistema. È fondamentale che i ricercatori e gli sviluppatori contino a monitorare e migliorare la sicurezza dei modelli LLM.

Codice disponibile

Il codice dell'attacco è stato reso disponibile sul repository GitHub https://github.com/xz-liu/tokenforge

La truffa del troiano nel vocabolario: sabotaggio stealthy dei metodi di composizione LLM

La truffa del troiano nel vocabolario: sabotaggio stealthy dei metodi di composizione LLM

Attacchi e vulnerabilità

Formalizzazione e attacchi

Rischio nella catena di approvvigionamento del sistema

Codice disponibile

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

HackerOne chiarisce i termini: i dati dei ricercatori non addestrano AI

I modelli di intelligenza artificiale più vulnerabili: cosa significa per l'industria

L'AI trova i bug, ma fatica a correggerli

👥 Unisciti a 160+ appassionati di AI