WebGym: Un nuovo ambiente per l'addestramento di agenti web visivi

È stato presentato WebGym, un ambiente open source progettato per l'addestramento di agenti web visivi realistici. Questo strumento si distingue per la sua vasta gamma di task, quasi 300.000, che coprono siti web reali e diversi livelli di difficoltà.

Scalabilità e prestazioni

Per scalare l'apprendimento per rinforzo (RL), WebGym introduce un sistema di rollout asincrono ad alta velocità, ottimizzato per agenti web. Questo sistema accelera il campionamento delle traiettorie di 4-5 volte rispetto alle implementazioni standard. L'addestramento di un modello vision-language, Qwen-3-VL-8B-Instruct, su WebGym ha portato a un aumento del tasso di successo su un set di test out-of-distribution dal 26,2% al 42,9%, superando agenti basati su modelli proprietari come GPT-4o e GPT-5-Thinking.

Implicazioni

La capacità di WebGym di migliorare le prestazioni su siti web mai visti durante l'addestramento rappresenta un passo avanti significativo nello sviluppo di agenti web visivi robusti e adattabili. Questo è particolarmente importante perché molti lavori precedenti si concentravano su task su siti web già visti durante l'addestramento.