Iniezione di dati contrastivi per migliorare i modelli linguistici
Un recente studio ha esplorato una tecnica per migliorare la resistenza ai bias e alla sicosi nei modelli linguistici, ottenendo risultati promettenti con modelli di dimensioni relativamente ridotte. L'approccio si basa sull'iniezione di coppie di dati contrastivi durante la fase di pre-training, anche in percentuali minime (0.05%).
I risultati indicano che un modello da 7 milioni di parametri, addestrato con questa tecnica, può raggiungere livelli di performance paragonabili a modelli standard con un numero di parametri significativamente maggiore (18-34 milioni).
Dettagli dell'implementazione
La tecnica non richiede modifiche all'architettura del modello né l'aggiunta di una loss function ausiliaria. L'iniezione di dati contrastivi sembra fornire al modello esempi chiari dei comportamenti desiderati, compensando la mancanza di segnali sufficienti nei dataset di pre-training standard come OpenWebText.
È interessante notare che la dose di iniezione di dati influenza i risultati in modo non lineare: una percentuale del 5% sembra essere ottimale, mentre una percentuale del 10% peggiora sia i punteggi comportamentali che l'accuratezza fattuale.
Risultati su modelli più grandi
La tecnica è stata replicata con successo su modelli da 12 e 34 milioni di parametri, mostrando un andamento simile. In particolare, l'iniezione contrastiva sembra risolvere un'anomalia di scaling osservata nei modelli vanilla da 64 milioni di parametri, dove la resistenza ai bias tende a regredire. Con l'iniezione contrastiva, invece, la resistenza ai bias si mantiene stabile su tutte le scale testate.
Lo studio suggerisce che, se questa tecnica si dimostrasse efficace anche su modelli di dimensioni maggiori, potrebbe consentire di raggiungere una qualità comportamentale paragonabile a quella di modelli con un numero di parametri 5-10 volte superiore. Questo aprirebbe la strada all'esecuzione di modelli linguistici avanzati su dispositivi con risorse limitate, come smartphone, senza la necessità di GPU dedicate.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!