I Large Vision Language Models (LVLM) mostrano notevoli capacitร , ma spesso mancano di conoscenza dettagliata su entitร specifiche.
Retrieval-Augmented Generation (RAG)
La Retrieval-Augmented Generation (RAG) รจ una soluzione diffusa che potenzia gli LVLM fornendo contesti aggiuntivi da una knowledge base esterna. Tuttavia, i metodi di decodifica esistenti per RAG non sfruttano appieno contesti rilevanti multipli e non sopprimono efficacemente gli effetti negativi di contesti irrilevanti.
Relevance-aware Multi-context Contrastive Decoding (RMCD)
Per affrontare queste limitazioni, รจ stato proposto Relevance-aware Multi-context Contrastive Decoding (RMCD), un nuovo metodo di decodifica per RAG. RMCD genera una previsione finale combinando le previsioni ottenute con ciascun contesto, ponderando ogni output in base alla sua rilevanza alla domanda. Questo approccio consente a RMCD di aggregare efficacemente informazioni utili da contesti rilevanti multipli e di contrastare gli effetti negativi di quelli irrilevanti.
Risultati sperimentali
Gli esperimenti dimostrano che RMCD supera costantemente altri metodi di decodifica su diversi LVLM, ottenendo le migliori performance su tre benchmark knowledge-intensive di visual question answering. RMCD puรฒ essere implementato semplicemente sostituendo il metodo di decodifica degli LVLM senza necessitร di ulteriore training. Le analisi mostrano anche che RMCD รจ robusto ai risultati del retrieval, mantenendo performance elevate anche con risultati di retrieval meno accurati. Il codice รจ disponibile su GitHub.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!