DIVE: Sintesi di task per LLM tool-using più generalizzabile

La capacità di un modello linguistico di grandi dimensioni (LLM) di utilizzare strumenti esterni è cruciale, ma la generalizzazione robusta in diversi task e toolset rimane una sfida.

DIVE: Un Nuovo Approccio

DIVE (Diversity in Agentic Task Synthesis) è un metodo che mira a migliorare la generalizzazione dei LLM nell'utilizzo di strumenti. L'approccio inverte l'ordine di sintesi dei task, eseguendo prima una varietà di strumenti reali e derivando successivamente i task in base alle tracce di esecuzione. Questo garantisce che i task siano sempre eseguibili e verificabili.

Diversità e Performance

DIVE scala la diversità strutturale lungo due assi controllabili: la copertura del pool di strumenti e la varietà del toolset per task. Un loop di raccolta di evidenze e derivazione di task induce pattern di utilizzo di strumenti multi-step su 373 strumenti in cinque domini. L'addestramento del modello Qwen3-8B con dati DIVE (48k SFT + 3.2k RL) ha portato a un miglioramento medio di +22 punti in nove benchmark OOD, superando la baseline 8B più forte di +68 punti. L'analisi ha rivelato che scalare la diversità supera costantemente lo scaling della quantità per la generalizzazione OOD, anche con 4 volte meno dati.

DIVE: Sintesi di task per LLM tool-using più generalizzabile

DIVE: Un Nuovo Approccio

Diversità e Performance

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

MASEval: valutazione di sistemi multi-agente, dai modelli ai sistemi completi

LLM: ragionamento potenziato per problemi matematici

LLM: Nuovo approccio per ottimizzare i prompt tramite workflow multi-agente