Introduzione

La valutazione dei grandi modelli linguistici (LLM) si basa pesantemente su benchmarks standardizzati. Tuttavia, queste metriche aggregate possono nascondere aree particolari dove i modelli sono deboli e distorsioni nella copertura dei benchmark stessi.

Problema

La mancanza di un approccio rappresentazione-grounded per l'evaluzione rende difficile la comparazione tra i modelli e identificare le aree di forza e debolezza. I benchmark, infatti, possono essere imparziali ma non sempre riflettono le esigenze del modello.

Proposta

Presentiamo un nuovo metodo che utilizza autoencoditori sparsi (SAEs) per scoprire automaticamente le lacune del modello e del benchmark. L'approccio sfrutta le attivazioni concettuali degli SAE e calcola i punteggi dei prestizi salienza-weighted in base a dati benchmark.

Metodologia

Il metodo prevede l'utilizzo di un dataset di esempio e la calcolazione delle attivazioni concettuali degli SAE. Questo permette di identificare le aree deboli del modello e le distorsioni nella copertura dei benchmark. In seguito, il metodo calcola i punteggi dei prestizi salienza-weighted in base ai dati benchmark per determinare la performance globale del modello.

Risultati

L'applicazione del metodo al due modelli LLM popolari e dieci benchmark ha rivelato lacune di competenza significative nel modello. Le aree deboli identificate includono concetti come il rifiuto delicato di una richiesta o la discussione sulla sicurezza, che sono stati precedentemente identificati nella letteratura accademica. Inoltre, si è constatato che molti benchmark hanno una copertura inadeguata dei concetti di base.

Conclusione

Il nostro metodo offre un approccio rappresentazione-grounded per l'evaluzione dei modelli LLM, permettendo la comparazione tra i modello e la identificazione delle aree deboli. Anzi, il metodo può essere utilizzato come complemento alle metriche aggregate tradizionali per offrire una comprensione più profonda della performance del modello.