Bias nei Modelli di Ricompensa Linguistici: Analisi e Mitigazione
La messa a punto dei modelli linguistici tramite modelli di ricompensa (RM) è vulnerabile a comportamenti indesiderati. Una nuova ricerca identifica bias persistenti in diversi RM di alta qualità, relativi a lunghezza, sottomissione, eccessiva sicure...