Jackpot: Reinforcement Learning efficiente per LLM

Un nuovo studio introduce Jackpot, un framework progettato per ottimizzare il reinforcement learning (RL) applicato ai modelli linguistici di grandi dimensioni (LLM). L'addestramento di LLM tramite RL รจ notoriamente costoso, in particolare a causa dell'elevato costo computazionale associato alla fase di rollout.

Disaccoppiamento e campionamento

Jackpot affronta questa sfida disaccoppiando la generazione del rollout dall'ottimizzazione della policy. Questo approccio consente di utilizzare modelli piรน efficienti per il rollout, ottenendo potenziali guadagni di efficienza. Tuttavia, questo disaccoppiamento introduce una significativa discrepanza di distribuzione che puรฒ destabilizzare l'apprendimento.

Per mitigare questo problema, Jackpot utilizza un campionamento di reiezione con budget ottimale (OBRS) per ridurre direttamente la discrepanza tra il modello di rollout e la policy in evoluzione. Il framework integra una procedura OBRS, un obiettivo di addestramento unificato che aggiorna congiuntamente i modelli di policy e rollout, e un'implementazione di sistema efficiente basata sulla stima della probabilitร  top-$k$ e sulla correzione della distorsione a livello di batch.

Risultati sperimentali

L'analisi teorica dimostra che OBRS avvicina costantemente la distribuzione del rollout alla distribuzione target entro un budget di accettazione controllabile. I risultati empirici mostrano che Jackpot migliora significativamente la stabilitร  dell'addestramento rispetto alle baseline di importance sampling, raggiungendo prestazioni paragonabili all'RL on-policy durante l'addestramento di Qwen3-8B-Base per un massimo di 300 passaggi di aggiornamento con una dimensione del batch di 64.