GPT-5.5 e Mythos Preview: l'AISI valuta capacità cyber simili, oltre l'hype di settore

LLM e Cybersecurity: GPT-5.5 e Mythos Preview a confronto

Il panorama dell'intelligenza artificiale generativa continua a evolvere rapidamente, con implicazioni significative per settori critici come la cybersecurity. Recentemente, Anthropic ha generato notevole attenzione per il suo modello Mythos Preview, presentandolo come una soluzione con capacità avanzate per la sicurezza informatica. L'azienda ha persino limitato l'accesso iniziale a “partner industriali critici”, sottolineando la potenziale portata delle sue funzionalità.

Tuttavia, una nuova ricerca condotta dall'AI Security Institute (AISI) del Regno Unito offre una prospettiva diversa su queste affermazioni. Le valutazioni dell'AISI suggeriscono che GPT-5.5 di OpenAI, un modello rilasciato pubblicamente la scorsa settimana, ha raggiunto un livello di performance “simile” a Mythos Preview nelle prove di cybersecurity. Questo confronto diretto offre spunti importanti per le organizzazioni che valutano l'adozione di LLM per compiti di sicurezza.

Dettagli delle Valutazioni e Performance

Dal 2023, l'AISI ha sottoposto diversi modelli AI di frontiera a un rigoroso set di 95 sfide “Capture the Flag” (CTF). Questi Benchmark sono progettati per testare le capacità dei modelli in aree chiave della cybersecurity, inclusi il reverse engineering, l'exploitation web e la crittografia. Le prove più complesse, etichettate come “Expert”, hanno visto GPT-5.5 superare una media del 71,4% delle sfide, un risultato leggermente superiore al 68,6% ottenuto da Mythos Preview, sebbene entro il margine di errore statistico.

Un esempio specifico evidenziato dall'AISI riguarda un compito particolarmente difficile: la costruzione di un disassembler per decodificare un binario Rust. In questa prova, GPT-5.5 ha risolto la sfida in soli 10 minuti e 22 secondi, senza alcun intervento umano, con un costo stimato di 1,73 dollari in chiamate API. Questo dimostra una notevole autonomia ed efficienza del modello in compiti complessi.

Simulazioni Avanzate e Limiti Attuali

Oltre alle sfide CTF, l'AISI ha utilizzato anche simulazioni più complesse per valutare le capacità offensive e difensive degli LLM. Una di queste è “The Last Ones” (TLO), un ambiente di test progettato per emulare un attacco di estrazione dati in 32 passaggi su una rete aziendale. In questa simulazione, GPT-5.5 ha avuto successo in 3 tentativi su 10, mentre Mythos Preview ha completato 2 tentativi su 10. È degno di nota che nessun modello precedentemente testato era mai riuscito a superare questa prova nemmeno una volta, indicando un significativo progresso per entrambi.

Tuttavia, i modelli incontrano ancora limiti. Nella simulazione più ardua dell'AISI, denominata “Cooling Tower”, che riproduce un tentativo di interruzione del software di controllo di una centrale elettrica, GPT-5.5 ha fallito, così come tutti i modelli AI testati in precedenza. Questo evidenzia che, nonostante i progressi, esistono ancora scenari di attacco estremamente complessi e sensibili in cui gli LLM attuali non sono ancora in grado di operare autonomamente con successo.

Implicazioni per il Deployment e la Sovranità dei Dati

I risultati dell'AISI sono particolarmente rilevanti per i CTO, i responsabili DevOps e gli architetti di infrastruttura che devono prendere decisioni strategiche sul deployment di soluzioni AI. La capacità di LLM come GPT-5.5 e Mythos Preview di affrontare compiti di cybersecurity solleva questioni importanti sulla sicurezza intrinseca di questi modelli e sul loro potenziale utilizzo sia in contesti difensivi che offensivi.

Per le aziende che considerano un deployment self-hosted o on-premise di LLM per applicazioni critiche, la comprensione delle reali capacità e dei limiti di questi modelli è fondamentale. La sovranità dei dati, la compliance normativa e la necessità di ambienti air-gapped sono fattori chiave che influenzano la scelta tra soluzioni cloud e infrastrutture locali. La valutazione di benchmark indipendenti come quelli dell'AISI aiuta a separare l'hype dalle prestazioni reali, fornendo dati concreti per analisi di TCO e decisioni di architettura. La continua ricerca in questo campo sarà cruciale per definire le migliori pratiche e i Framework di sicurezza per l'integrazione degli LLM nelle infrastrutture aziendali.

GPT-5.5 e Mythos Preview: l'AISI valuta capacità cyber simili, oltre l'hype di settore

LLM e Cybersecurity: GPT-5.5 e Mythos Preview a confronto

Dettagli delle Valutazioni e Performance

Simulazioni Avanzate e Limiti Attuali

Implicazioni per il Deployment e la Sovranità dei Dati

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

AI e Cybersecurity: Promesse, Pratiche e Insidie

Cybersecurity AI: il 2026 sarà l'anno della svolta?

Cyberattacchi automatizzati con IA: allarme da Google

👥 Unisciti a 160+ appassionati di AI