Google ha reso noto di aver subito oltre 100.000 tentativi di attacco al suo modello linguistico Gemini, perpetrati tramite prompt mirati. L'obiettivo degli aggressori sembra essere l'estrazione di conoscenza dal modello per addestrare versioni clonate a costi inferiori.

Estrazione di modelli e proprietร  intellettuale

Google definisce questa attivitร  illecita come "estrazione di modelli" e la considera una violazione della proprietร  intellettuale. Questa posizione, tuttavia, รจ complessa, considerando che i modelli linguistici di grandi dimensioni (LLM) come Gemini sono spesso addestrati utilizzando dati estratti dal web senza autorizzazione.

Precedenti controversi

Non รจ la prima volta che Google si trova al centro di polemiche relative all'addestramento dei suoi modelli. Nel 2023, l'azienda รจ stata accusata di aver utilizzato output generati da ChatGPT per migliorare le prestazioni di Bard. Un ricercatore di Google, Jacob Devlin, si dimise in seguito a queste accuse, contestando l'utilizzo di dati provenienti da ShareGPT, una piattaforma pubblica dove gli utenti condividono conversazioni con chatbot. Google ha negato le accuse, ma ha interrotto l'utilizzo dei dati in questione.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.