I modelli AI e la memorizzazione dei dati di training
Recenti ricerche hanno dimostrato che i modelli linguistici di grandi dimensioni (LLM) sono in grado di generare copie quasi identiche di opere protette da copyright a partire dai dati su cui sono stati addestrati. Questo solleva interrogativi sulla reale capacitร di questi sistemi di "apprendere" senza memorizzare attivamente il materiale originale.
Le analisi condotte su modelli di aziende leader come OpenAI, Google, Meta, Anthropic e xAI indicano una memorizzazione dei dati di training superiore a quanto precedentemente stimato. Questa scoperta mette in discussione la linea di difesa principale delle aziende AI nelle cause legali per violazione del copyright, le quali sostengono che i loro modelli "imparano" dai dati protetti, ma non ne conservano copie.
La capacitร di un modello di riprodurre fedelmente porzioni di testo coperte da copyright potrebbe avere implicazioni significative per le battaglie legali in corso, mettendo a rischio la posizione delle aziende che sviluppano e distribuiscono questi sistemi. Per chi valuta deployment on-premise, esistono trade-off da considerare; AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!