Se fino a ieri l'AI aziendale sembrava un buffet libero, oggi il conto inizia a pesare. Le registrazioni interne di Accenture ottenute da 404 Media rivelano un fenomeno che sta facendo tremare i CFO: la spesa per token è fuori controllo e i maggiori consumatori non sono gli sviluppatori, ma i colleghi degli uffici marketing, amministrazione e vendite.

Binge eating di token: il fattaccio

Nel mirino ci sono task apparentemente innocui come convertire PDF in presentazioni o markdown. «Trasformare PDF in markdown: è così?», chiede Stuart Henderson di Accenture durante una riunione interna, dopo aver visto i dati. La risposta è un sì imbarazzato. Justice Kwak, strategy lead per l’agentic AI, conferma: la maggior parte del consumo non proviene dagli ingegneri, ma da profili non tecnici che adottano strumenti come Claude Code, Copilot e Cursor per automatizzare ogni minima attività d’ufficio.

Il caso più estremo arriva da Uber: il CTO ha ammesso di aver polverizzato l’intero budget annuale per l’AI in soli quattro mesi. Dopo aver spinto i dipendenti a usare l’intelligenza artificiale il più possibile, l’azienda è corsa ai ripari imponendo limiti rigidi. Anche Walmart ha frenato dopo un’impennata di richieste.

La fine dell’abbuffata: la corsa ai ripari

La dinamica è innescata da un cambio di modello: fornitori come GitHub non offrono più abbonamenti flat, ma fatturano a consumo, token per token. Senza budget predefiniti o tier di accesso, qualsiasi dipendente può generare migliaia di chiamate API per un compito risibile. «La spesa sta diventando materiale per la struttura dei costi, e completamente imprevedibile», spiega Kwak, sottolineando come i dirigenti finanziari e operativi inizino a chiedersi se il gioco valga la candela.

Accenture sta correndo ai ripari con un prodotto chiamato "Token IQ", pensato per attribuire il costo a livello di token ai reali outcome di progetto. L’idea è di fornire alle imprese una lente granulare sulla spesa AI, superando la visibilità aggregata che oggi rende impossibile capire se quei milioni di token convertiti in slide stiano davvero generando valore.

AI senza briglie: il nodo del controllo

La vicenda segna uno spartiacque: la fase dell’adozione indiscriminata dell’AI generativa è finita. Dopo aver spinto per un’integrazione rapida, le grandi società di consulenza e i loro clienti scoprono che scalare l’AI non significa solo accendere abbonamenti. L’automazione dei workflow con agenti e l’uso orizzontale in tutta l’organizzazione moltiplicano i costi in modo esponenziale, molto oltre le previsioni.

Per chi si occupa di deployment, il messaggio è chiaro: senza una governance dei consumi, il cloud può diventare un pozzo senza fondo. È qui che la prospettiva on-premise torna a guadagnare terreno. Le API a consumo offrono flessibilità, ma rendono la spesa opaca e volatile. Un’infrastruttura self-hosted, con LLM eseguiti su hardware dedicato, trasforma il costo in un investimento prevedibile, con TCO calcolabile e piena sovranità sui dati.

AI-RADAR: la spinta verso l’on-premise

L’esplosione dei costi tokenizzati riporta in auge i ragionamenti che AI-RADAR segue da tempo: quando la bolletta mensile dipende da ogni prompt di un impiegato, il controllo sfugge di mano. Hosting on-premise, che si tratti di un cluster di GPU o di un server con LLM quantizzato, restituisce prevedibilità finanziaria e governance granulare. Certo, richiede competenze interne e un investimento iniziale, ma elimina il rischio di budget bruciati in compiti a basso valore.

La storia non è nuova: ogni tecnicia enterprise attraversa la fase del far west, per poi sbattere contro la realtà dei costi. Il "token ops" di Accenture è il sintomo di una maturazione necessaria. Mentre i fornitori di servizi cloud spingono per consumi illimitati, le aziende più avvedute iniziano a valutare architetture ibride o interamente on-premise, dove il costo marginale della singola richiesta tende a zero una volta ammortizzata la macchina.

La tokenpocalypse non è solo un problema di note spese: è il campanello d’allarme che spinge verso una gestione più sobria e, per molti, verso il self-hosting.