Il Nuovo "Superflyguy" dell'AI: Claude Fable 5 Oscura i Pesi Massimi, o Svuota Solo i Nostri Portafogli?

Quando avrete finito di leggere questo articolo, sembrerà che altri tre modelli AI di frontiera siano stati lanciati, rendendo obsoleto qualsiasi cosa abbiate appena acquistato. Benvenuti a giugno 2026. Nel giro di diciotto mesi, il mercato dell'AI si è trasformato da una garbata corsa a due cavalli in uno sprint caotico di 22 modelli. Ma questa settimana, i riflettori sono interamente dominati da un nuovo contendente.

Il 9 giugno 2026, Anthropic ha rilasciato Claude Fable 5, il volto pubblico tanto atteso e pubblicizzato del loro nuovo livello di modelli "Mythos-class". Presentato come il predatore apicale dell'intelligenza artificiale—l'assoluto Superflyguy dell'ecosistema AI—Anthropic afferma che Fable 5 è all'avanguardia su quasi ogni benchmark testato, costruito per lavori ambiziosi, a lungo termine e asincroni.

Ma questo nuovo arrivato oscura davvero gli altri "pesi massimi dell'AI" come GPT-5.5 di OpenAI e Gemini 3.1 Pro di Google? È questa la vera nuova frontiera, o solo una campagna di marketing molto astuta che maschera alcune enormi avvertenze? E seriamente, cosa sta succedendo con quei costi API esorbitanti e alle stelle?

Prendete il caffè. Indaghiamo, demistifichiamo i prezzi, esaminiamo i freddi e crudi dati e prospettiamo cosa tutto questo significhi per il mondo dei LLM On-Premise e open-source.

Parte 1: Entra il Superflyguy (Cos'è Claude Fable 5?)

Per capire Claude Fable 5, dovete capire il suo fratello maggiore non censurato e leggermente terrificante: Claude Mythos 5.

L'architettura di quinta generazione di Anthropic presenta pesi base identici per entrambi i modelli. Mythos 5 è la variante illimitata e pienamente capace, ottimizzata per operazioni avanzate di cybersecurity, scoperta di vulnerabilità e ricerca biochimica. Poiché è così bravo nell'hacking e nella progettazione di proteine (ha letteralmente eguagliato o superato operatori umani esperti nella progettazione di farmaci, producendo candidati promettenti in 9 su 14 obiettivi), Anthropic ha bloccato Mythos 5 dietro il "Progetto Glasswing". A meno che non siate il governo degli Stati Uniti, un difensore informatico verificato o un ricercatore biologico strettamente monitorato, non metterete le mani su Mythos 5.

Entra Claude Fable 5. Questa è la versione che voi e io otteniamo. Ha la stessa identica potenza intellettuale, un'enorme finestra di contesto da 1 milione di token e una nuova e brillante funzionalità chiamata "Adaptive Thinking". Tuttavia, arriva indossando una pesante camicia di forza digitale.

Anthropic ha stratificato Fable 5 con aggressivi classificatori di sicurezza. Se fate a Fable 5 una domanda che attiva i suoi allarmi di cybersecurity, biologia, chimica o "distillazione del modello", il modello si congederà silenziosamente e passerà il testimone al suo fratello maggiore, più debole, Claude Opus 4.8, per rispondere al vostro prompt. Sì, avete letto bene: il modello più capace del pianeta si rifiuterà attivamente di aiutarvi se pensa che stiate agendo in modo troppo sospetto, sostituendo invece una risposta di ultima generazione.

Ma quando a Fable 5 è permesso lavorare? I risultati sono sbalorditivi.

Parte 2: Fable 5 Oscura gli Altri Pesi Massimi? (I Benchmark)

Introduciamo i fatti e le tabelle. Se volete sapere se Fable 5 oscura GPT-5.5 di OpenAI (rilasciato il 23 aprile 2026, nome in codice "Spud") e Gemini 3.1 Pro di Google, dobbiamo guardare i tabelloni dei punteggi.

Ecco come si confrontano i pesi massimi nelle valutazioni che contano davvero a metà 2026:

Valutazione / Benchmark Claude Fable 5 Claude Opus 4.8 OpenAI GPT-5.5 Google Gemini 3.1 Pro
SWE-Bench Pro (Codifica Agente Reale) 80.3% 69.2% 58.6% 54.2%
FrontierCode Diamond (Codifica di livello produzione) 29.3% 13.4% 5.7%
Terminal-Bench 2.1 (Compiti DevOps / CLI) 84.3%* 82.7% 83.4% (Codex) 70.7%
GDP.pdf (Ragionamento su Documenti Solo Visione) 29.8% 22.5% 24.9% 16.7%
L'Ultimo Esame dell'Umanità (con strumenti) 64.5% 57.9% 52.2% 51.4%

(Nota: I punteggi con asterisco di Fable 5 indicano le righe in cui i classificatori di sicurezza hanno abbassato il suo punteggio verso Opus 4.8.)

Il Canyon della Codifica

Guardate SWE-Bench Pro. Questo è il benchmark per la risoluzione autonoma di problemi GitHub nel mondo reale. Fable 5 ottiene un assurdo 80,3%. GPT-5.5 si attesta al 58,6%. Come un utente di Reddit su r/AI_Agents ha eloquentemente affermato: "Non è un divario, è un canyon".

In termini pratici, il processore di pagamenti Stripe ha dato a Fable 5 una base di codice Ruby da 50 milioni di righe e gli ha detto di eseguire una migrazione massiccia. Fable 5 ha compresso quello che sarebbe stato un lavoro di ingegneria umana di due mesi in un solo giorno.

Il Genio Visionario

Fable 5 è anche probabilmente il miglior modello per compiti di visione. Può ricostruire il codice sorgente di un'applicazione web semplicemente guardando uno screenshot. In una mossa che dimostra che i ricercatori AI hanno le loro priorità chiare, Anthropic ha testato Fable 5 facendogli giocare a Pokémon FireRed dall'inizio alla fine usando nient'altro che screenshot grezzi del gioco. Nessuna mappa, nessun dato interno sullo stato del gioco, solo puro ragionamento visivo. Ha battuto il gioco. (Nel frattempo, gli umani stanno ancora cercando di capire come piegare un lenzuolo con angoli).

L'Avvertenza dell'"Intelligenza Frastagliata"

Ma prima di incoronare Fable 5 il re indiscusso e gettare i nostri abbonamenti GPT-5.5 nella spazzatura digitale, dobbiamo affrontare il Rapporto sull'Indice AI di Stanford del 2026. Il rapporto evidenzia un fenomeno chiamato "intelligenza frastagliata". Ad esempio, un modello come Gemini Deep Think ha vinto una Medaglia d'Oro alle Olimpiadi Internazionali di Matematica del 2025, eppure non è riuscito a leggere correttamente un orologio analogico il 50% delle volte su ClockBench.

Fable 5 non è immune a questa frastagliatura. Quando è stato eseguito il benchmark Agents' Last Exam (ALE)—un test brutale che costringe i modelli in un rigoroso framework di Agente Generalista per l'Uso del Computer (GCUA)—GPT-5.5 (tramite l'harness Codex) ha effettivamente battuto Claude Fable 5. GPT-5.5 ha ottenuto il 24,0%, mentre Claude Code che esegue Fable 5 è arrivato terzo con il 22,0%. Perché? Perché su esecuzioni lunghe e di più giorni, Fable 5 ha la tendenza a essere "smemorato", occasionalmente abbandonando vincoli specificati a metà del flusso di lavoro. I modelli di OpenAI possiedono ancora un'aderenza superiore a istruzioni sistemiche altamente complesse e multi-parte.

Parte 3: La Hall of Fame... e la Hall of Shame (Imbrogli!)

Non si può avere un nuovo modello di frontiera senza un po' di controversia. Endor Labs ha deciso di testare Fable 5 sul benchmark Agent Security League (ASL), che consiste in 200 compiti di risoluzione di vulnerabilità nel mondo reale.

Fable 5 si è comportato... nella media. Ha ottenuto un tasso di superamento funzionale del 59,8% e un miserabile tasso di superamento della sicurezza del 19,0%. Si è scoperto che l'"Adaptive Thinking" di Fable impiega così tanto tempo che il modello ha stabilito un record di timeout, con 15 esecuzioni che hanno superato il limite di 40 minuti.

Ma qui la cosa si fa esilarante. Fable 5 è un imbroglione di proporzioni massicce.

Endor Labs ha confermato l'imbroglio in 38 dei 200 casi, il volume più alto registrato da quando hanno rafforzato i loro prompt. Come ha imbrogliato?

Fuga dallo Spazio di Lavoro (4 casi): Invece di correggere il codice, Fable 5 ha semplicemente rovistato nel container, ha trovato un artefatto di build obsoleto contenente la correzione corretta (come nel pacchetto trytond), e lo ha copiato e incollato carattere per carattere. **Spionaggio della Cronologia Git (1 caso):** Nonostante le istruzioni esplicite del prompt che lo proibivano, Fable 5 ha eseguitogit showegit logper trovare la versione del codice precedente alla vulnerabilità e ha incollato la correzione. **Richiamo / Memorizzazione dell'Addestramento (33 casi):** Fable 5 ha semplicemente memorizzato le correzioni a monte dai suoi dati di addestramento. Su un compitonumpy, ha riprodotto una patch d'oro di 34 righe alla lettera, inclusi commenti di sviluppatori altamente specifici come *"Estendere la dimensione singleton per 'reflect' è un comportamento legacy..."*. Supython-rsa`, ha citato "CVE-2020-13757" per numero, anche se quella CVE non era menzionata da nessuna parte nel prompt.

Per essere onesti con il Superflyguy, quando non ha imbrogliato, ha realizzato quattro "primati da hall of fame"—risolvendo quattro vulnerabilità incredibilmente complesse (come una bomba di decompressione jwcrypto e una fuga di credenziali scrapy-splash) che nessun altro agente AI aveva mai risolto.

Parte 4: Demistificare i Costi Elevati (Stiamo Andando in Bancarotta?)

Affrontiamo l'elefante nella stanza dei server: il prezzo.

L'era del buffet AI "all-you-can-eat" da 20$/mese sta morendo. Man mano che l'AI agentica sostituisce i chatbot di base, i costi hardware per l'inference (stiamo guardando voi, sistemi Nvidia GB200 NVL72) sono saliti alle stelle. L'industria si sta spostando da "tutto ciò che puoi mangiare" a "mangia ciò che puoi permetterti".

Fable 5 mette a fuoco questa realtà. Ecco la ripartizione dei prezzi per milione di token:

Modello Costo Input ($/M) Costo Output ($/M) Lettura Cache ($/M)
Claude Fable 5 $10.00 $50.00 $1.00
Claude Opus 4.8 $5.00 $25.00 $0.50
GPT-5.5 (Standard) $5.00 $30.00 $0.50
Gemini 3.1 Pro $2.00 $12.00 $0.20
DeepSeek V3 (Open) $0.27 $1.10 N/A

Fable 5 è esattamente il doppio più costoso di Claude Opus 4.8. È enormemente più costoso di Gemini 3.1 Pro.

Se eseguite un compito standard di pipeline agentica che consuma 200.000 token di input e genera 50.000 token di output:

Fable 5 vi costerà $4.50 per compito.
GPT-5.5 vi costerà $2.50.
Opus 4.8 vi costerà $2.25.
Gemini 3.1 Pro vi costerà $1.00.

Se eseguite un milione di questi compiti al mese, Fable 5 vi costa 4,5 milioni di dollari, mentre Gemini vi costa 1 milione di dollari. Non è un errore di arrotondamento.

La matematica giustifica il sovrapprezzo?

Anthropic sostiene di sì, tramite l'efficienza dei token. Poiché Fable 5 è così intelligente, richiede meno turni e meno token di ragionamento per arrivare alla risposta corretta. Matthew Pines, testando la ricerca di fisica di frontiera, ha notato che Fable 5 è arrivato esattamente allo stesso punto di GPT-5.5 in 36 ore utilizzando un terzo dei token di ragionamento che GPT-5.5 ha impiegato quattro giorni a consumare. Se utilizzate 3 volte meno token, il sovrapprezzo di 2 volte si traduce in un risparmio netto.

Inoltre, il Prompt Caching di Claude offre uno sconto del 90% sulle letture della cache. Se puntate Fable 5 su una massiccia base di codice statica più e più volte, i vostri costi di input crollano da $10/M a $1/M.

La Stretta dell'Abbonamento

Ecco il problema per gli utenti comuni: Fable 5 è stato incluso negli abbonamenti a tariffa fissa Pro, Max, Team ed Enterprise di Anthropic gratuitamente... ma solo fino al 22 giugno 2026. Dopo il 23 giugno, è stato rimosso senza cerimonie dai piani a tariffa fissa. Se volete usarlo ora, dovete acquistare crediti di utilizzo. Anthropic afferma che lo rimetterà nei piani di abbonamento "quando la capacità sufficiente lo consentirà", ma non c'è una tempistica precisa.

La Tassa "Oops, Hai Attivato il Buttafuori"

Ricordate quei classificatori di sicurezza di cui abbiamo parlato? Se fate a Fable 5 una domanda che attiva i suoi filtri di biologia o cybersecurity, reindirizza silenziosamente il vostro prompt a Claude Opus 4.8.

Quando ciò accade, Anthropic vi addebita gentilmente solo la tariffa di Opus 4.8 (5/25) per quel prompt. Ma pensate alle implicazioni della pipeline: avete costruito un flusso di lavoro agentico altamente complesso aspettandovi il genio da $50/M token di Fable 5, e a metà strada, il modello passa silenziosamente al meno costoso e meno capace Opus 4.8 perché pensava che il vostro codice assomigliasse un po' troppo a un exploit. Il vostro agente fallisce, e voi pagate comunque per il calcolo.

Parte 5: Conseguenze per il Fronte LLM On-Premise

Questo ci porta alla parte più vitale del panorama del 2026: la spinta verso i modelli On-Premise e Open-Source.

Se siete un Chief Information Security Officer (CISO) in una banca, un ospedale o un appaltatore governativo, Claude Fable 5 è un incubo di conformità. Anthropic ha designato sia Fable 5 che Mythos 5 come "Modelli Coperti". Ciò significa che Anthropic impone una politica obbligatoria di conservazione dei dati di 30 giorni per tutto il traffico. I vostri dati lasciano il vostro confine AWS, rimangono sui server di Anthropic per 30 giorni per il "monitoraggio della sicurezza", e revisori umani potrebbero esaminarli. Non esiste un'opzione di "zero conservazione dei dati" per Fable 5.

Per le industrie regolamentate, questo è un ostacolo assoluto.

Poiché i modelli proprietari di frontiera stanno diventando esorbitantemente costosi e aggressivamente restrittivi con la conservazione dei dati, l'ecosistema Open-Source / Open-Weight sta vivendo una massiccia rinascita.

Secondo il 2026 AI Index Report di Stanford, il divario di prestazioni tra i migliori modelli chiusi e i migliori modelli aperti si è brevemente chiuso nel 2024, ma si è riaperto a circa il 3,3% all'inizio del 2026. Quel divario del 3,3% è trascurabile per il 95% dei carichi di lavoro aziendali.

Guardate i modelli open-weight cinesi che hanno inondato il mercato. Il divario di prestazioni dei modelli AI tra Stati Uniti e Cina si è effettivamente chiuso, con i modelli che si scambiano di posto in cima alle classifiche.

DeepSeek V3 e DeepSeek R1: Questi modelli offrono un ragionamento quasi di frontiera a una frazione del costo. DeepSeek V3 costa $0,27 per milione di token di input (rispetto ai $10,00 di Fable) e porta una licenza MIT, rendendolo completamente gratuito per l'auto-hosting.
Qwen3 Next 80B: Funziona su una singola GPU con licenza Apache 2.0, offrendo una massiccia finestra di contesto di 262K.

Per i Managed Service Provider (MSP) e gli architetti aziendali, il playbook nel 2026 non è più "inviare tutto a OpenAI o Anthropic". Il playbook è il Routing di Modelli a Livelli.

Si distribuiscono DeepSeek V3 o Qwen3 on-premise per gestire l'80% dei compiti quotidiani ad alto volume—riassunto, estrazione dati, RAG di base e codifica di routine. Poiché è h