Anthropic ha reso noto di aver individuato attacchi di 'distillazione' su vasta scala diretti ai suoi modelli di linguaggio. Secondo quanto riportato, gli attacchi sarebbero stati condotti da DeepSeek, Moonshot AI e MiniMax.

La tecnica di 'distillazione' consiste nell'addestrare un modello più piccolo (lo 'studente') utilizzando l'output di un modello più grande e complesso (il 'docente'). L'obiettivo è trasferire le capacità del modello più grande a uno più leggero, ottenendo un modello più efficiente in termini di risorse computazionali.

Questo tipo di attacco solleva preoccupazioni significative sulla proprietà intellettuale e sulla sicurezza dei modelli di AI. Se un modello può essere 'distillato' in modo efficace, diventa più facile per terzi replicarne le funzionalità senza doverlo addestrare da zero.