Più che un chatbot, una sentinella digitale. Il frontier model Mythos di Anthropic ha superato un esame spietato: trovare falle all’interno di sistemi informatici classificati del governo americano. Secondo quanto riferito da un funzionario statunitense all’Associated Press, durante un’esercitazione il modello è riuscito a identificare diverse vulnerabilità nel giro di poche ore.

Il dettaglio è importante: Mythos non ha condotto un penetration test autonomo, non ha compromesso sistemi né scritto codice di exploit. Il compito, per quanto complesso, era più simile a un’analisi statica su larga scala: scovare crepe nell’architettura di sicurezza segnalate poi agli operatori umani. Ma la rapidità con cui il modello ha prodotto risultati utili – in un contesto blindato – è un segnale per chiunque gestisca infrastrutture critiche.

L’ombra dell’on-premise

Per eseguire un test su reti classificate, Mythos non poteva appoggiarsi a endpoint cloud pubblici. Si è trattato quasi certamente di un’istanza isolata, girata su hardware locale con rigidi vincoli di air-gap. È il tipo di scenario che AI-RADAR segue costantemente: deployment on-premise di LLM per mantenere la sovranità sui dati e impedire fughe, anche a costo di rinunciare alla flessibilità operativa del cloud.

Questo esperimento non è un’anomalia. Le agenzie governative stanno progressivamente portando l’IA generativa all’interno dei propri perimetri protetti, spinte dalla necessità di analizzare dati sensibili senza esporli. Ma il dispiegamento on-premise di un modello grande come Mythos comporta scelte di hardware rilevanti: GPU con VRAM abbondante (si pensi a configurazioni con oltre 80 GB per scheda), storage veloce per il modello e per i dati, e un’infrastruttura di raffreddamento che incide sul TCO. E poi c’è la manutenzione: a differenza di un servizio API, l’aggiornamento di un modello self-hosted richiede competenze dedicate.

Anthropic non ha rilasciato dettagli su architettura o parametri, ma si sa che la famiglia Claude – da cui Mythos deriva – può scalare fino a centinaia di miliardi di parametri. In un contesto on-premise, ciò si traduce in necessità di multi-GPU, interconnessioni veloci (NVLink, InfiniBand) e fine-tuning o quantization per bilanciare latenza e consumo di risorse.

Sovranità e pragmatismo

Oltre alla tecnicia, c’è un nodo geopolitico. Il test è avvenuto su sistemi USA con un modello americano, ma la dinamica è universale: ogni organizzazione con dati classificati deve decidere se affidarsi a un vendor esterno (con i rischi di dipendenza e di accesso ai log) oppure costruire una capacità interna con modelli open-source. Entrambe le strade hanno costi e garanzie diverse. L’episodio dimostra che i modelli di frontiera sono ormai capaci di contribuire alla cybersicurezza nazionale – ma a patto che l’infrastruttura che li ospita sia altrettanto robusta.

Il messaggio per le imprese

La notizia arriva in un momento in cui molte aziende tengono nel cassetto progetti di IA on-premise in attesa di capire se i costi e la complessità siano giustificati. L’uso di Mythos in ambito governativo fornisce un parametro: se un’agenzia di sicurezza investe nell’hardware per eseguire un modello su dati classificati, allora forse il gioco vale la candela. Ma il percorso verso un’adozione diffusa non è lineare. I trade-off restano: performance e aggiornamenti rapidi contro controllo totale e privacy assoluta. Su questi temi AI-RADAR continuerà a fornire analisi e metriche concrete, senza scorciatoie.