Un terzo dei nuovi siti web è generato dall'AI: uno studio rivela l'impatto sulla rete

L'ascesa dei contenuti generati dall'AI nel panorama digitale

Il panorama digitale sta vivendo una trasformazione rapida, con l'intelligenza artificiale che assume un ruolo sempre più centrale nella creazione di contenuti. Una recente ricerca, frutto della collaborazione tra esperti di Stanford, dell'Imperial College London e dell'Internet Archive, ha messo in luce una tendenza significativa: circa un terzo dei siti web creati a partire dal 2022 è generato o assistito da sistemi di intelligenza artificiale. Questo dato, pubblicato in un paper intitolato "The Impact of AI-Generated Text on the Internet", sottolinea la velocità con cui gli LLM e tecnicie affini stanno rimodellando la presenza online.

Prima del lancio di ChatGPT a fine 2022, la percentuale di siti web di nuova pubblicazione classificati come generati dall'AI era praticamente nulla. Entro la metà del 2025, questa cifra è destinata a salire a circa il 35%, evidenziando un'adozione massiva in un lasso di tempo estremamente breve. Questa evoluzione solleva interrogativi fondamentali sulla natura dei contenuti che popolano il web e sulle implicazioni per gli utenti e le organizzazioni.

Metodologia e risultati inaspettati

Per condurre lo studio, il team di ricerca si è ispirato alla "Dead Internet Theory", un'idea che suggerisce come gran parte di internet sia ormai popolata da interazioni tra bot. L'obiettivo era comprendere come l'avvento di ChatGPT e dei suoi concorrenti avesse ridefinito il web. I ricercatori hanno analizzato campioni di siti web estratti dall'Internet Archive, utilizzando la Wayback Machine's CDX Server API per recuperare snapshot storici tra agosto 2022 e maggio 2025. Il testo estratto è stato poi analizzato con il software di rilevamento AI Pangram v3, scelto per la sua elevata accuratezza.

Lo studio ha testato sei critiche comuni rivolte al testo generato dall'AI, tra cui la proliferazione di disinformazione, la mancanza di citazioni e la creazione di una "monocultura" stilistica. Con sorpresa dei ricercatori, solo due di queste ipotesi sono state confermate: il testo generato dall'AI tende a rendere il web meno semanticamente diverso e complessivamente più positivo nel tono. Non è stato riscontrato un aumento di affermazioni verificabilmente false né una diminuzione della densità di link esterni, suggerendo che l'AI non stia necessariamente portando a una rete più ingannevole o priva di fonti, almeno per quanto riguarda le affermazioni verificabili.

Implicazioni per la qualità dei dati e i deployment on-premise

L'incremento esponenziale di contenuti generati dall'AI sul web ha implicazioni significative per le aziende che considerano il deployment di LLM in ambienti self-hosted o on-premise. La qualità dei dati è un fattore critico per il fine-tuning e l'inference di modelli proprietari, e la crescente presenza di testo AI-generato nel corpus di dati pubblici potrebbe alterare la diversità semantica e stilistica dei dataset di training. Questo aspetto è particolarmente rilevante per le organizzazioni che puntano alla sovranità dei dati e al controllo completo sulla loro pipeline di AI, dove la curatela del dataset diventa un'attività ancora più strategica.

Per chi valuta deployment on-premise, la capacità di distinguere tra contenuti umani e AI-generati nei propri dataset interni o nelle fonti esterne utilizzate per l'arricchimento dei modelli è fondamentale. Strumenti di rilevamento come Pangram v3 potrebbero diventare parte integrante delle pipeline di pre-elaborazione dei dati, garantendo che i modelli siano addestrati su informazioni affidabili e semanticamente ricche. La comprensione di questi trade-off è essenziale per ottimizzare il TCO e le performance dei sistemi AI in contesti aziendali.

Il futuro del web e la sfida della "personalità" AI

I ricercatori hanno espresso l'intenzione di continuare a monitorare l'evoluzione del testo generato dall'AI, trasformando lo studio in uno strumento continuo con l'Internet Archive. L'obiettivo è aggiungere granularità all'analisi, esaminando quali tipi di siti web e quali lingue sono maggiormente influenzati. Questa prospettiva a lungo termine è cruciale per comprendere appieno le dinamiche del web.

Jonáš Doležal, ricercatore AI a Stanford e co-autore del paper, sottolinea l'importanza di trovare un ruolo per questi modelli che vada oltre la semplice creazione di un web "sanificato e ripetitivo". Suggerisce che permettere ai modelli di avere una "personalità" o una "frizione" più distintiva potrebbe trasformarli in partner creativi piuttosto che in meri sostituti della voce umana. Questa visione apre nuove strade per lo sviluppo di LLM, spingendo verso una maggiore diversità e originalità anche nei contenuti generati artificialmente.