DLLM-Searcher: un nuovo approccio per gli agenti di ricerca
I modelli linguistici di diffusione (dLLM) offrono vantaggi unici in termini di efficienza grazie al meccanismo di decodifica intrinsecamente parallelo e al paradigma di generazione flessibile. Tuttavia, l'implementazione pratica degli agenti di ricerca è limitata dalla latenza dovuta all'esecuzione seriale di ragionamento multi-round, tool calling e attesa della risposta dai tool.
DLLM-Searcher affronta queste sfide con un framework di ottimizzazione per agenti di ricerca basati su dLLM. Il framework risolve il problema delle capacità limitate degli agenti tramite un pipeline di post-training in due fasi: Agentic Supervised Fine-Tuning (Agentic SFT) e Agentic Variance-Reduced Preference Optimization (Agentic VRPO). Questo migliora le capacità di information seeking e ragionamento del dLLM.
Per mitigare la latenza, DLLM-Searcher introduce P-ReAct, un nuovo paradigma che guida il modello a dare priorità alle istruzioni tool_call, consentendogli di continuare a ragionare mentre attende la risposta del tool. I risultati sperimentali dimostrano che DLLM-Searcher raggiunge prestazioni paragonabili agli agenti di ricerca basati su LLM tradizionali, con un'accelerazione dell'inference del 15% grazie a P-ReAct.
Il codice del progetto è disponibile su repository anonimo.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!