Introduzione
La valutazione dei grandi modelli linguistici (LLM) si basa pesantemente su benchmarks standardizzati. Tuttavia, queste metriche aggregate possono nascondere aree particolari dove i modelli sono deboli e distorsioni nella copertura dei benchmark stessi.
Problema
La mancanza di un approccio rappresentazione-grounded per l'evaluzione rende difficile la comparazione tra i modelli e identificare le aree di forza e debolezza. I benchmark, infatti, possono essere imparziali ma non sempre riflettono le esigenze del modello.
Proposta
Presentiamo un nuovo metodo che utilizza autoencoditori sparsi (SAEs) per scoprire automaticamente le lacune del modello e del benchmark. L'approccio sfrutta le attivazioni concettuali degli SAE e calcola i punteggi dei prestizi salienza-weighted in base a dati benchmark.
Metodologia
Il metodo prevede l'utilizzo di un dataset di esempio e la calcolazione delle attivazioni concettuali degli SAE. Questo permette di identificare le aree deboli del modello e le distorsioni nella copertura dei benchmark. In seguito, il metodo calcola i punteggi dei prestizi salienza-weighted in base ai dati benchmark per determinare la performance globale del modello.
Risultati
L'applicazione del metodo al due modelli LLM popolari e dieci benchmark ha rivelato lacune di competenza significative nel modello. Le aree deboli identificate includono concetti come il rifiuto delicato di una richiesta o la discussione sulla sicurezza, che sono stati precedentemente identificati nella letteratura accademica. Inoltre, si è constatato che molti benchmark hanno una copertura inadeguata dei concetti di base.
Conclusione
Il nostro metodo offre un approccio rappresentazione-grounded per l'evaluzione dei modelli LLM, permettendo la comparazione tra i modello e la identificazione delle aree deboli. Anzi, il metodo può essere utilizzato come complemento alle metriche aggregate tradizionali per offrire una comprensione più profonda della performance del modello.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!