Dati sintetici: futuro o vicolo cieco per i modelli LLM?
La questione se i dati sintetici rappresentino il futuro o un vicolo cieco per l'addestramento dei modelli linguistici di grandi dimensioni (LLM) è al centro di un acceso dibattito.
Un documento di Shumailov et al. (2023) mette in guardia dal rischio di un collasso del modello quando si addestra ricorsivamente su dati generati dall'intelligenza artificiale. La qualità si degrada e si perde la ricchezza del linguaggio. Ma ci sono anche risultati incoraggianti:
- Self-Instruct dimostra che un modello può migliorare generando i propri esempi di addestramento.
- L'approccio Constitutional AI prevede che un modello migliori autocriticandosi.
- Phi-1 e Phi-2 di Microsoft, addestrati su dati sintetici di alta qualità, ottengono risultati notevoli.
- Alpaca è stato addestrato sulle consegne di ChatGPT, con risultati contrastanti.
Quale futuro per i modelli linguistici?
Quindi, l'addestramento su dati sintetici porta inevitabilmente al collasso del modello, oppure può funzionare con un'attenta selezione? Dipende forse dalla combinazione con dati reali? Lo studio di Shumailov suggerisce che il problema è la ricorsività senza dati reali. Phi-2, invece, indica che dati sintetici di alta qualità possono portare a capacità inaspettate.
Se il collasso del modello è reale e il web è sempre più pieno di contenuti generati dall'intelligenza artificiale, stiamo avvelenando il futuro dei modelli? GPT-6 potrebbe essere addestrato in parte sui dati di GPT-4, raggiungendo un punto di non ritorno?
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!