Google Search addestra l’AI con i tuoi upload: come fare opt-out

Google ha silenziosamente ampliato il perimetro di raccolta dati per l’addestramento dei propri modelli di intelligenza artificiale. Da un aggiornamento della cronologia di Ricerca Google, i caricamenti multimediali legati alle interazioni degli utenti – ad esempio le immagini caricate per una ricerca inversa – vengono ora conservati e utilizzati per migliorare i sistemi di AI dell’azienda. La funzione è attiva di default per tutti gli account, e solo una scelta consapevole dell’utente può bloccarla.

L’aggiornamento che passa inosservato

La novità modifica il comportamento della cronologia di Ricerca Google, che già registrava query e link visitati. Ora, anche i file multimediali inviati dall’utente durante l’interazione con il motore di ricerca finiscono nel dataset di training. Google non ha fornito dettagli tecnici su quali modelli vengano addestrati né su come i dati vengano anonimizzati, ma la mossa si inserisce nella corsa all’acquisizione di dati differenziati per alimentare Large Language Models e sistemi multimodali. Per chi utilizza servizi cloud come Google Workspace o fa leva sulle API di ricerca, l’implicazione è immediata: i contenuti potrebbero contribuire, anche involontariamente, a modelli che un domani saranno utilizzati da concorrenti o da attori esterni.

Come disattivare l’uso dei dati

L’opt-out non è complesso, ma richiede di navigare tra le impostazioni dell’account Google. In genere, basta accedere alla sezione “Dati e privacy”, individuare la cronologia delle ricerche e disabilitare l’opzione che consente l’utilizzo dei dati per il miglioramento dei modelli AI. L’azienda avverte che la rinuncia potrebbe ridurre la personalizzazione dei servizi, ma per chi tiene alla riservatezza è un compromesso accettabile. Resta il fatto che la trasparenza sull’uso dei dati rimane parziale: non è chiaro per quanto tempo i media vengano conservati, né se l’opt-out cancelli retroattivamente i dati già raccolti.

Perché le aziende devono alzare la guardia

Per le organizzazioni che gestiscono proprietà intellettuale, dati sanitari o informazioni coperte da segreto industriale, la nuova policy di Google rappresenta un rischio concreto. Basti pensare a un dipendente che, per sbaglio, carichi un’immagine di un prodotto non ancora annunciato per una reverse image search: quell’immagine finirebbe in un dataset di training, con potenziali ricadute legali e competitive. Il problema va oltre la singola funzionalità: segnala quanto i servizi cloud mainstream stiano virando verso un modello in cui i dati degli utenti diventano materia prima per l’AI, spesso senza un consenso esplicito e granulare. Il Regolamento Generale sulla Protezione dei Dati (GDPR) impone vincoli stringenti, ma l’opacità sulle modalità di utilizzo rende difficile per le aziende dimostrare la conformità.

On-premise e sovranità dei dati: la prospettiva AI-RADAR

È qui che l’approccio on-premise guadagna rilevanza strategica. Eseguire LLM e sistemi di AI interamente su infrastruttura propria – che si tratti di un server con GPU in sede o di un cluster air-gapped – garantisce che nessun dato lasci il perimetro aziendale. Non c’è bisogno di fidarsi delle policy di opt-out di terze parti, né di accettare compromessi sulla privacy in cambio di servizi. Certo, il self-hosting comporta investimenti in hardware, competenze interne e un TCO (TCO) da valutare con attenzione. Ma per realtà che operano in settori regolamentati o che fanno della sovranità dei dati un pilastro competitivo, la scelta di non delegare il training a fornitori esterni diventa un fattore abilitante, non un costo. AI-RADAR continuerà a esplorare framework e architetture per deployment on-premise proprio per fornire alle aziende gli strumenti analitici necessari a soppesare questi trade-off.