Le AI replicano romanzi quasi integralmente dai dati di training

I modelli AI e la memorizzazione dei dati di training

Recenti ricerche hanno dimostrato che i modelli linguistici di grandi dimensioni (LLM) sono in grado di generare copie quasi identiche di opere protette da copyright a partire dai dati su cui sono stati addestrati. Questo solleva interrogativi sulla reale capacità di questi sistemi di "apprendere" senza memorizzare attivamente il materiale originale.

Le analisi condotte su modelli di aziende leader come OpenAI, Google, Meta, Anthropic e xAI indicano una memorizzazione dei dati di training superiore a quanto precedentemente stimato. Questa scoperta mette in discussione la linea di difesa principale delle aziende AI nelle cause legali per violazione del copyright, le quali sostengono che i loro modelli "imparano" dai dati protetti, ma non ne conservano copie.

La capacità di un modello di riprodurre fedelmente porzioni di testo coperte da copyright potrebbe avere implicazioni significative per le battaglie legali in corso, mettendo a rischio la posizione delle aziende che sviluppano e distribuiscono questi sistemi. Per chi valuta deployment on-premise, esistono trade-off da considerare; AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Le AI replicano romanzi quasi integralmente dai dati di training

I modelli AI e la memorizzazione dei dati di training

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Enciclopedia Britannica e Merriam-Webster citano OpenAI per violazione di copyright

Enciclopedia Britannica e Merriam-Webster citano OpenAI per violazione di copyright

Anthropic sotto accusa per presunta violazione di proprietà intellettuale