Introduzione
La valutazione dei grandi modelli linguistici (LLM) si basa pesantemente su benchmarks standardizzati. Tuttavia, queste metriche aggregate possono nascondere aree particolari dove i modelli sono deboli e distorsioni nella copertura dei benchmark stessi.
Problema
La mancanza di un approccio rappresentazione-grounded per l'evaluzione rende difficile la comparazione tra i modelli e identificare le aree di forza e debolezza. I benchmark, infatti, possono essere imparziali ma non sempre riflettono le esigenze del modello.
Proposta
Presentiamo un nuovo metodo che utilizza autoencoditori sparsi (SAEs) per scoprire automaticamente le lacune del modello e del benchmark. L'approccio sfrutta le attivazioni concettuali degli SAE e calcola i punteggi dei prestizi salienza-weighted in base a dati benchmark.
Metodologia
Il metodo prevede l'utilizzo di un dataset di esempio e la calcolazione delle attivazioni concettuali degli SAE. Questo permette di identificare le aree deboli del modello e le distorsioni nella copertura dei benchmark. In seguito, il metodo calcola i punteggi dei prestizi salienza-weighted in base ai dati benchmark per determinare la performance globale del modello.
Risultati
L'applicazione del metodo al due modelli LLM popolari e dieci benchmark ha rivelato lacune di competenza significative nel modello. Le aree deboli identificate includono concetti come il rifiuto delicato di una richiesta o la discussione sulla sicurezza, che sono stati precedentemente identificati nella letteratura accademica. Inoltre, si รจ constatato che molti benchmark hanno una copertura inadeguata dei concetti di base.
Conclusione
Il nostro metodo offre un approccio rappresentazione-grounded per l'evaluzione dei modelli LLM, permettendo la comparazione tra i modello e la identificazione delle aree deboli. Anzi, il metodo puรฒ essere utilizzato come complemento alle metriche aggregate tradizionali per offrire una comprensione piรน profonda della performance del modello.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!