Jackpot: campionamento efficiente per RL e LLM

Jackpot: Reinforcement Learning efficiente per LLM

Un nuovo studio introduce Jackpot, un framework progettato per ottimizzare il reinforcement learning (RL) applicato ai modelli linguistici di grandi dimensioni (LLM). L'addestramento di LLM tramite RL è notoriamente costoso, in particolare a causa dell'elevato costo computazionale associato alla fase di rollout.

Disaccoppiamento e campionamento

Jackpot affronta questa sfida disaccoppiando la generazione del rollout dall'ottimizzazione della policy. Questo approccio consente di utilizzare modelli più efficienti per il rollout, ottenendo potenziali guadagni di efficienza. Tuttavia, questo disaccoppiamento introduce una significativa discrepanza di distribuzione che può destabilizzare l'apprendimento.

Per mitigare questo problema, Jackpot utilizza un campionamento di reiezione con budget ottimale (OBRS) per ridurre direttamente la discrepanza tra il modello di rollout e la policy in evoluzione. Il framework integra una procedura OBRS, un obiettivo di addestramento unificato che aggiorna congiuntamente i modelli di policy e rollout, e un'implementazione di sistema efficiente basata sulla stima della probabilità top-$k$ e sulla correzione della distorsione a livello di batch.

Risultati sperimentali

L'analisi teorica dimostra che OBRS avvicina costantemente la distribuzione del rollout alla distribuzione target entro un budget di accettazione controllabile. I risultati empirici mostrano che Jackpot migliora significativamente la stabilità dell'addestramento rispetto alle baseline di importance sampling, raggiungendo prestazioni paragonabili all'RL on-policy durante l'addestramento di Qwen3-8B-Base per un massimo di 300 passaggi di aggiornamento con una dimensione del batch di 64.

Jackpot: campionamento efficiente per RL e LLM

Jackpot: Reinforcement Learning efficiente per LLM

Disaccoppiamento e campionamento

Risultati sperimentali

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Allineamento AI: ricompense gerarchiche guidate dal linguaggio

LLM: ragionamento potenziato per problemi matematici

Found-RL: Reinforcement Learning potenziato per guida autonoma

👥 Unisciti a 160+ appassionati di AI