Individuare e Prevenire gli Stereotipi nei Large Language Models
Uno studio recente indaga i meccanismi interni di LLM come GPT 2 Small e Llama 3.2 per localizzare gli stereotipi. La ricerca esplora l'identificazione di attivazioni neuronali specifiche e di "attention heads" che contribuiscono a output distorti. L...