Rakuten Kobo ha chiuso il 2025 con un bilancio insolito: quasi la metà delle opere caricate sulla sua piattaforma di self-publishing, Kobo Writing Life, non ha mai visto la luce. Il numero – un secco 45% di rifiuti – racconta una storia che va oltre le statistiche editoriali e tocca il delicato rapporto tra creatività umana e produzione sintetica.

La proporzione inedita dei rifiuti

A rivelare i dettagli è stato il CEO Michael Tamblyn, che ha legato oltre l’80% delle bocciature a libri «manifestamente» realizzati con l’intelligenza artificiale. Non è una novità che gli LLM vengano usati per generare testi a basso sforzo, ma la quota è così ampia da suggerire un’inondazione sistematica. Kobo non ha reso pubblici gli strumenti di rilevamento impiegati, lasciando aperta la domanda su quanto sia affidabile distinguere il testo umano da quello macchina a queste scale. Per chi lavora con modelli in self-hosting, il dato solleva una riflessione immediata: se anche un marketplace globale fatica a separare il grano dal loglio, cosa può fare un’azienda che vuole controllare la qualità dei contenuti prodotti internamente dai propri LLM?

Quando il controllo qualità incontra l’hosting locale

In ambienti on-premise, la sovranità dei dati non riguarda solo la privacy ma anche la governance dei risultati. Un team che utilizza un LLM per scrivere documentazione tecnica, report o materiale formativo ha la possibilità di inserire step di validazione umana, ma il volume di produzione può renderli impraticabili. La tentazione di automatizzare la verifica con classificatori addestrati è forte, ma introduce un trade-off: modelli di rilevamento meno performanti rischiano di scartare lavoro legittimo, mentre soluzioni più sofisticate richiedono risorse GPU addizionali e VRAM extra, alzando il TCO dell’infrastruttura.

La vicenda Kobo, pur non essendo direttamente legata al deployment on-premise, mostra l’urgenza di filtrare output sintetici prima che diventino visibili – sia che l’ambiente sia un e-commerce globale sia una rete aziendale isolata. È un’implicazione di sistema, non solo editoriale: la capacità di decidere cosa esce dal modello diventa una funzione critica, al pari dell’inference stessa.

Oltre il singolo marketplace

La stretta di Kobo è un campanello d’allarme per chiunque gestisca pipeline di contenuti. Le piattaforme di autopubblicazione, i CMS aziendali, persino i repository di codice: tutti i canali in cui un LLM può iniettare testo generato sono esposti al rischio di inquinamento a basso sforzo. Il fenomeno non riguarda soltanto il copyright o l’integrità artistica; tocca la fiducia che le organizzazioni ripongono negli strumenti di intelligenza artificiale quando passano dalla fase di test a quella di produzione. Scegliere di mantenere i modelli in casa, su hardware proprio, offre il vantaggio di definire politiche di filtraggio precise e di conservare tutto il segnale necessario per migliorare la detection nel tempo – un percorso che le soluzioni cloud, con le loro black box, raramente permettono di percorre fino in fondo.

Il 45% di bocciature non è solo un numero: è un indicatore della massa silenziosa di testo artificiale che preme per entrare in circolazione. Per chi si occupa di LLM on-premise, diventa il promemoria che il deployment responsabile non finisce con l’ottimizzazione dei token al secondo, ma inizia proprio quando il modello smette di scrivere.