Meta: Reinforcement Learning più semplice con TorchForge e Weaver

Meta ha presentato TorchForge, una libreria PyTorch-native progettata per semplificare il reinforcement learning (RL) nei modelli linguistici di grandi dimensioni (LLM). La libreria è stata sviluppata per affrontare le sfide infrastrutturali che spesso rallentano la ricerca e limitano la velocità di iterazione dei team.

TorchForge e Weaver: una sinergia per l'RL su vasta scala

In collaborazione con Stanford e CoreWeave, il team di Meta ha testato TorchForge su un cluster di 512 GPU, utilizzando Weaver come sistema di verifica. Questo ha permesso di eseguire GRPO (Generalized Policy Optimization) a una scala e velocità precedentemente irraggiungibili. L'integrazione ha portato a una configurazione più semplice, un training più stabile e un flusso di lavoro più efficiente dall'ideazione all'implementazione.

TorchForge offre primitive RL PyTorch-native che scalano da un singolo nodo a un cluster multi-nodo senza complessità infrastrutturali. Weaver, invece, fornisce segnali di reward di livello production senza annotazioni umane o costose chiamate API. Monarch orchestra la coordinazione distribuita con tolleranza automatica agli errori.

Caratteristiche principali di TorchForge

API RL in stile pseudocodice.
Sincronicità flessibile.
Astrazioni di servizio Monarch.
Piani di controllo e dati disaccoppiati.
Sincronizzazione dei pesi in-memory TorchStore.
Componenti collaudati end-to-end (vLLM, TorchTitan).
Scaling eterogeneo ed effimero.
Integrazione di reward e verifier personalizzati (es. Weaver).
Pipeline robuste e riproducibili.
Estensibilità tramite ambienti e strumenti di prima classe.

Weaver: un verifier per il ragionamento

Weaver è un sistema di verifica progettato per colmare il divario tra generazione e verifica nei modelli linguistici di grandi dimensioni. Aggrega molteplici verifier più piccoli per creare un motore di verifica più efficace. Questo sistema automatizzato elimina la necessità di annotazioni umane continue e riduce la dipendenza da costose API di modelli di frontiera.

Risultati sperimentali

I test hanno confrontato tre approcci di reward su modelli Qwen3-8B-Base e Qwen3-32B-Base:

Modello di reward singolo (RM) senza annotazioni.
Weaver senza annotazioni.
Esempi di training annotati.

L'uso combinato di Forge e Weaver ha portato a risultati significativamente superiori rispetto ai singoli modelli di reward nei benchmark Math, GPQA e MMLU Pro. La pipeline ha dimostrato un miglioramento notevole, raggiungendo il 63% del divario tra il singolo RM e il training annotato su GPQA con Qwen3-8B.

Meta: Reinforcement Learning più semplice con TorchForge e Weaver

TorchForge e Weaver: una sinergia per l'RL su vasta scala

Caratteristiche principali di TorchForge

Weaver: un verifier per il ragionamento

Risultati sperimentali

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Ottimizzazione LLM: nuovo metodo per un fine-tuning più efficiente

Microsoft rafforza le protezioni contro risposte impreviste degli LLM

La Cina accelera lo sviluppo di GPU per modelli di grandi dimensioni

👥 Unisciti a 160+ appassionati di AI