Bias nei Modelli di Ricompensa: Un'Analisi Approfondita

I modelli di ricompensa (RM) sono fondamentali per l'allineamento dei modelli linguistici (LM) con le preferenze umane. Tuttavia, l'utilizzo degli RM per la messa a punto dei modelli può portare a comportamenti indesiderati, derivanti da imperfezioni nei modelli di ricompensa stessi.

Uno studio recente ha analizzato sistematicamente i bias presenti in cinque RM di alta qualità, riscontrando problemi persistenti legati a:

  • Lunghezza delle risposte
  • Sottomissione (sycophancy)
  • Eccessiva sicurezza
  • Stile specifico del modello
  • Ordine delle risposte

Mitigazione dei Bias

La ricerca categorizza i fallimenti degli RM in base alla loro complessità e propone un intervento post-hoc per mitigare i bias a bassa complessità, derivanti da correlazioni spurie. Questo approccio, definito "modellazione meccanicistica della ricompensa", riduce i bias senza compromettere la qualità della ricompensa e utilizzando una quantità minima di dati etichettati. Il metodo è estendibile a nuovi bias e generalizza bene.

Per chi valuta deployment on-premise, esistono trade-off complessi da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.