Tokenpocalypse: le aziende combattono il costo dei token con LLM che parlano da cavernicoli

Comincia la Tokenpocalypse? Le aziende si agitano perché i costi dell’AI stanno salendo alle stelle, e la colpa è di un modello di business semplice quanto dirompente: pagare per ogni token che un LLM riceve e produce. È quanto emerge dall’ultimo episodio del podcast che ha battezzato il fenomeno “Tokenpocalypse”, dove i conduttori Joseph ed Emanuel raccontano di come le aziende stiano cercando di arginare la spesa, anche con metodi creativi – o disperati.

Parlare come cavernicoli per risparmiare

Uno spunto che sta facendo discutere è l’uso di un tool per costringere gli LLM a esprimersi in modo essenziale, quasi come un cavernicolo. L’idea è drastica ma non stupida: meno token nella risposta equivalgono a un costo inferiore. Se il modello interno o l’assistente vocale sintetizza una risposta con frasi telegrafiche invece di periodi articolati, il conto mensile può scendere sensibilmente. Naturalmente si pone un problema di qualità: un output impoverito rischia di minare l’esperienza dell’utente, ma in molti contesti – come chatbot di primo livello o riepiloghi interni – potrebbe essere un compromesso accettabile.

Dietro la follia dei token

Il prezzo per token non è solo una questione di centesimi. Con centinaia di migliaia di richieste al giorno, le somme diventano rilevanti, e la variabilità rende difficile prevedere il TCO. Chi usa API di fornitori cloud sta scoprendo che l’adozione di LLM può sfuggire di mano ai budget dei dipartimenti IT, costringendo a rincorrere tagli e ottimizzazioni. È qui che il tema del deployment on-premise si fa largo. L’utilizzo di modelli self-hosted, magari con quantization spinta e fine-tuning per compiti specifici, trasforma i costi da operativi (OpEx) a capitale (CapEx) e, soprattutto, elimina la tariffazione a consumo, restituendo prevedibilità.

AI-RADAR da tempo mappa le opzioni di hardware e inference locale proprio per chi non vuole dipendere dalle montagne russe del costo a token. Un server con GPU dedicata, se ammortizzato su un arco temporale medio-lungo, offre un costo per inference che può diventare lineare e sotto controllo. Certo, servono competenze e investimenti iniziali, ma la Tokenpocalypse potrebbe accelerare la migrazione verso architetture self-hosted.

Una truffa che sa di generazione automatica

Fuori dal mondo enterprise, l’AI generativa sta alimentando un altro tipo di “tokenpocalypse”: la proliferazione di prodotti fittizi. I conduttori segnalano che semi di fiori esotici generati completamente con AI spuntano su eBay, Etsy e Amazon, truffando ignari acquirenti con immagini di piante che non esistono. È un effetto collaterale inquietante della facilità con cui oggi si creano contenuti sintetici, e un ulteriore spunto per riflettere sul controllo che occorre esercitare quando l’intelligenza artificiale diventa commodity.

La Tokenpocalypse, insomma, non è solo una battuta da podcast: è un sintomo di un ecosistema in cui la potenza degli LLM si scontra con i meccanismi di prezzo e di fiducia. Per chi progetta l’AI della propria organizzazione, la lezione è chiara: affidarsi esclusivamente ad API cloud può essere rischioso; guardare all’on-premise – o a un approccio ibrido – non è più una nicchia, ma una strategia di sopravvivenza contabile.