Il paradosso della valutazione AI: oltre le capacità tecniche

Nel panorama attuale dell'intelligenza artificiale, gran parte delle risorse e degli sforzi sono dedicati alla misurazione delle capacità dei sistemi. I ricercatori analizzano metriche di valutazione tecniche, sottopongono le AI a test di ragionamento complessi e monitorano il loro throughput, cercando di spingere sempre più in là i confini della performance. Questo approccio ha portato a progressi impressionanti, con modelli che eccellono in benchmark come SWE-bench o LLM arena, alimentando una competizione tra le aziende per sviluppare le soluzioni più performanti.

Tuttavia, in questo fervore per il progresso tecnico, una metrica fondamentale viene spesso trascurata: l'impatto dell'AI sugli esseri umani. Imran Khan, che dirige la valutazione psicosociale dell'AI presso l'organizzazione no-profit Center for Humane Technology, ha recentemente evidenziato questo paradosso. Nel suo saggio pubblicato sul Substack dell'organizzazione, Khan sottolinea come stiamo rilasciando strumenti di AI capaci di rimodellare la nostra cognizione, le nostre relazioni e il nostro comportamento, ma con uno sforzo sistematico minimo per misurare gli effetti a valle che essi hanno su di noi. Questa lacuna solleva interrogativi cruciali sul vero significato del progresso tecnicico.

Effetti psicosociali: un'ombra crescente sull'esperienza umana

La spinta a esaminare più da vicino gli effetti psicosociali dell'AI ricorda i dibattiti emersi in passato riguardo ai danni dei social media. Tuttavia, Khan ritiene che l'AI potrebbe avere effetti ancora più ampi e intimi, penetrando aspetti della vita quotidiana in modi inediti. Mentre si celebra il miglioramento delle performance dei Large Language Models (LLM) e i loro progressi, si perde di vista la questione centrale: questa tecnicia sta realmente aiutando gli esseri umani a prosperare o sta erodendo alcune delle nostre capacità più fondamentali?

Esistono già casi di alto profilo che, secondo Khan, rappresentano solo la punta dell'iceberg: suicidi di adolescenti, episodi di “AI psychosis” e persone che dedicano quantità immense di tempo e denaro a chatbot progettati per essere eccessivamente accondiscendenti. Questi danni sono già presenti, ma la buona notizia è che la pressione pubblica può fare la differenza. Un esempio è la modifica apportata da OpenAI a uno dei suoi modelli ChatGPT a seguito di preoccupazioni pubbliche sulla sua eccessiva accondiscendenza. Questo dimostra che i laboratori sono sensibili al controllo e possono rispondere, offrendo un potenziale per orientare la tecnicia verso un uso utile ma meno dannoso. Tuttavia, la sfida più complessa riguarda gli effetti a livello sociale: cosa accadrà alle relazioni romantiche, alle famiglie e all'identità degli adolescenti se l'AI diventerà parte integrante della loro quotidianità per mesi e anni? Senza una misurazione tempestiva di questi fenomeni, il rischio è che sia troppo tardi per intervenire.

Progettare la valutazione per impatti a lungo termine

Il problema della valutazione degli impatti umani dell'AI risiede nella sua natura a lungo termine. I benchmark attuali si concentrano su compiti a breve termine, come la capacità di un'AI di scrivere codice o rispondere a domande scientifiche complesse. Gli impatti psicosociali, al contrario, emergono nel corso di mesi o anni, influenzando la mente individuale, le relazioni, le comunità e la società nel suo complesso. Questo richiede studi longitudinali, un approccio simile a quello adottato nell'industria farmaceutica.

Quando un nuovo farmaco viene approvato, non solo attraversa diverse fasi di sperimentazione, ma le aziende sono anche obbligate a condurre un monitoraggio post-deployment, esaminando gli effetti che potrebbero manifestarsi nell'arco di cinque o dieci anni. Analogamente, per l'AI, è necessario monitorare fenomeni nuovi, come l'evoluzione della relazione delle persone con l'AI nel corso di uno o due anni, analizzando ad esempio i log delle chat. Attualmente, le aziende detengono questi dati, ma i ricercatori esterni non vi hanno accesso. Aprire l'accesso a più dati, garantendo al contempo la privacy degli utenti, è un passo cruciale. Sebbene le singole aziende possano percepire uno svantaggio nel condividere per prime i propri dati, l'industria nel suo complesso ha un interesse a garantire prodotti sicuri e affidabili. La responsabilità legale, con aziende di AI già citate in giudizio per danni estremi come il suicidio, rappresenta un ulteriore incentivo a rendere i prodotti più sicuri, idealmente supportato da una regolamentazione chiara.

Verso una relazione più umana con l'AI

Il futuro dell'AI si preannuncia ancora più integrato nella vita umana. Se oggi molti danni derivano dall'interazione con chatbot testuali, si sta già assistendo a un passaggio verso l'uso esteso di agenti AI, con conversazioni audio in tempo reale e avatar video sempre più realistici. La preoccupazione è che, se non si inizia ora a comprendere l'effetto umano di queste tecnicie, si rischia di rimanere troppo indietro per valutare adeguatamente gli sviluppi futuri. Il progresso tecnicico, infatti, sembra superare la nostra capacità di analisi.

Il successo, in questa prospettiva, si tradurrebbe nella creazione di un ecosistema collaborativo che riunisca esperti provenienti da laboratori di AI, governi, enti regolatori, università e startup. L'obiettivo sarebbe quello di definire cosa significhi una relazione sana tra esseri umani e AI e sviluppare le tecniche necessarie per garantire tale equilibrio. Solo attraverso uno sforzo congiunto e multidisciplinare sarà possibile costruire una relazione più umana con l'intelligenza artificiale, assicurando che il suo sviluppo sia allineato al benessere e alla fioritura dell'umanità.