Meta ha presentato TorchForge, una libreria PyTorch-native progettata per semplificare il reinforcement learning (RL) nei modelli linguistici di grandi dimensioni (LLM). La libreria è stata sviluppata per affrontare le sfide infrastrutturali che spesso rallentano la ricerca e limitano la velocità di iterazione dei team.
TorchForge e Weaver: una sinergia per l'RL su vasta scala
In collaborazione con Stanford e CoreWeave, il team di Meta ha testato TorchForge su un cluster di 512 GPU, utilizzando Weaver come sistema di verifica. Questo ha permesso di eseguire GRPO (Generalized Policy Optimization) a una scala e velocità precedentemente irraggiungibili. L'integrazione ha portato a una configurazione più semplice, un training più stabile e un flusso di lavoro più efficiente dall'ideazione all'implementazione.
TorchForge offre primitive RL PyTorch-native che scalano da un singolo nodo a un cluster multi-nodo senza complessità infrastrutturali. Weaver, invece, fornisce segnali di reward di livello production senza annotazioni umane o costose chiamate API. Monarch orchestra la coordinazione distribuita con tolleranza automatica agli errori.
Caratteristiche principali di TorchForge
- API RL in stile pseudocodice.
- Sincronicità flessibile.
- Astrazioni di servizio Monarch.
- Piani di controllo e dati disaccoppiati.
- Sincronizzazione dei pesi in-memory TorchStore.
- Componenti collaudati end-to-end (vLLM, TorchTitan).
- Scaling eterogeneo ed effimero.
- Integrazione di reward e verifier personalizzati (es. Weaver).
- Pipeline robuste e riproducibili.
- Estensibilità tramite ambienti e strumenti di prima classe.
Weaver: un verifier per il ragionamento
Weaver è un sistema di verifica progettato per colmare il divario tra generazione e verifica nei modelli linguistici di grandi dimensioni. Aggrega molteplici verifier più piccoli per creare un motore di verifica più efficace. Questo sistema automatizzato elimina la necessità di annotazioni umane continue e riduce la dipendenza da costose API di modelli di frontiera.
Risultati sperimentali
I test hanno confrontato tre approcci di reward su modelli Qwen3-8B-Base e Qwen3-32B-Base:
- Modello di reward singolo (RM) senza annotazioni.
- Weaver senza annotazioni.
- Esempi di training annotati.
L'uso combinato di Forge e Weaver ha portato a risultati significativamente superiori rispetto ai singoli modelli di reward nei benchmark Math, GPQA e MMLU Pro. La pipeline ha dimostrato un miglioramento notevole, raggiungendo il 63% del divario tra il singolo RM e il training annotato su GPQA con Qwen3-8B.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!