Rilevamento dei dati di pre-training negli LLM: una nuova frontiera
La crescente opacitร dei corpora di pre-training utilizzati nei modelli linguistici di grandi dimensioni (LLM) solleva preoccupazioni significative in termini di privacy e copyright. Di conseguenza, il rilevamento dei dati di pre-training รจ diventato una sfida cruciale.
Gap-K%: un approccio innovativo
Un recente studio pubblicato su arXiv presenta Gap-K%, un nuovo metodo per il rilevamento dei dati di pre-training basato sull'analisi delle dinamiche di ottimizzazione del pre-training degli LLM. Questo approccio si concentra sulle discrepanze tra la previsione top-1 del modello e il token target, sfruttando il fatto che tali discrepanze generano forti segnali di gradiente che vengono penalizzati durante l'addestramento.
Gap-K% utilizza il divario di log-probabilitร tra il token predetto top-1 e il token target, incorporando una strategia a finestra scorrevole per catturare le correlazioni locali e mitigare le fluttuazioni a livello di token. I risultati sperimentali sui benchmark WikiMIA e MIMIR dimostrano che Gap-K% supera costantemente i metodi precedenti in termini di performance, mostrando risultati superiori su diverse dimensioni di modelli e lunghezze di input.
Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!