Meta ha presentato TorchForge, una libreria PyTorch-native progettata per semplificare il reinforcement learning (RL) nei modelli linguistici di grandi dimensioni (LLM). La libreria è stata sviluppata per affrontare le sfide infrastrutturali che spesso rallentano la ricerca e limitano la velocità di iterazione dei team.

TorchForge e Weaver: una sinergia per l'RL su vasta scala

In collaborazione con Stanford e CoreWeave, il team di Meta ha testato TorchForge su un cluster di 512 GPU, utilizzando Weaver come sistema di verifica. Questo ha permesso di eseguire GRPO (Generalized Policy Optimization) a una scala e velocità precedentemente irraggiungibili. L'integrazione ha portato a una configurazione più semplice, un training più stabile e un flusso di lavoro più efficiente dall'ideazione all'implementazione.

TorchForge offre primitive RL PyTorch-native che scalano da un singolo nodo a un cluster multi-nodo senza complessità infrastrutturali. Weaver, invece, fornisce segnali di reward di livello production senza annotazioni umane o costose chiamate API. Monarch orchestra la coordinazione distribuita con tolleranza automatica agli errori.

Caratteristiche principali di TorchForge

  • API RL in stile pseudocodice.
  • Sincronicità flessibile.
  • Astrazioni di servizio Monarch.
  • Piani di controllo e dati disaccoppiati.
  • Sincronizzazione dei pesi in-memory TorchStore.
  • Componenti collaudati end-to-end (vLLM, TorchTitan).
  • Scaling eterogeneo ed effimero.
  • Integrazione di reward e verifier personalizzati (es. Weaver).
  • Pipeline robuste e riproducibili.
  • Estensibilità tramite ambienti e strumenti di prima classe.

Weaver: un verifier per il ragionamento

Weaver è un sistema di verifica progettato per colmare il divario tra generazione e verifica nei modelli linguistici di grandi dimensioni. Aggrega molteplici verifier più piccoli per creare un motore di verifica più efficace. Questo sistema automatizzato elimina la necessità di annotazioni umane continue e riduce la dipendenza da costose API di modelli di frontiera.

Risultati sperimentali

I test hanno confrontato tre approcci di reward su modelli Qwen3-8B-Base e Qwen3-32B-Base:

  • Modello di reward singolo (RM) senza annotazioni.
  • Weaver senza annotazioni.
  • Esempi di training annotati.

L'uso combinato di Forge e Weaver ha portato a risultati significativamente superiori rispetto ai singoli modelli di reward nei benchmark Math, GPQA e MMLU Pro. La pipeline ha dimostrato un miglioramento notevole, raggiungendo il 63% del divario tra il singolo RM e il training annotato su GPQA con Qwen3-8B.