La capacità di un modello linguistico di grandi dimensioni (LLM) di utilizzare strumenti esterni è cruciale, ma la generalizzazione robusta in diversi task e toolset rimane una sfida.
DIVE: Un Nuovo Approccio
DIVE (Diversity in Agentic Task Synthesis) è un metodo che mira a migliorare la generalizzazione dei LLM nell'utilizzo di strumenti. L'approccio inverte l'ordine di sintesi dei task, eseguendo prima una varietà di strumenti reali e derivando successivamente i task in base alle tracce di esecuzione. Questo garantisce che i task siano sempre eseguibili e verificabili.
Diversità e Performance
DIVE scala la diversità strutturale lungo due assi controllabili: la copertura del pool di strumenti e la varietà del toolset per task. Un loop di raccolta di evidenze e derivazione di task induce pattern di utilizzo di strumenti multi-step su 373 strumenti in cinque domini. L'addestramento del modello Qwen3-8B con dati DIVE (48k SFT + 3.2k RL) ha portato a un miglioramento medio di +22 punti in nove benchmark OOD, superando la baseline 8B più forte di +68 punti. L'analisi ha rivelato che scalare la diversità supera costantemente lo scaling della quantità per la generalizzazione OOD, anche con 4 volte meno dati.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!