Decodifica contrastiva multi-contesto per il Visual Question Answering

I Large Vision Language Models (LVLM) mostrano notevoli capacità, ma spesso mancano di conoscenza dettagliata su entità specifiche.

Retrieval-Augmented Generation (RAG)

La Retrieval-Augmented Generation (RAG) è una soluzione diffusa che potenzia gli LVLM fornendo contesti aggiuntivi da una knowledge base esterna. Tuttavia, i metodi di decodifica esistenti per RAG non sfruttano appieno contesti rilevanti multipli e non sopprimono efficacemente gli effetti negativi di contesti irrilevanti.

Relevance-aware Multi-context Contrastive Decoding (RMCD)

Per affrontare queste limitazioni, è stato proposto Relevance-aware Multi-context Contrastive Decoding (RMCD), un nuovo metodo di decodifica per RAG. RMCD genera una previsione finale combinando le previsioni ottenute con ciascun contesto, ponderando ogni output in base alla sua rilevanza alla domanda. Questo approccio consente a RMCD di aggregare efficacemente informazioni utili da contesti rilevanti multipli e di contrastare gli effetti negativi di quelli irrilevanti.

Risultati sperimentali

Gli esperimenti dimostrano che RMCD supera costantemente altri metodi di decodifica su diversi LVLM, ottenendo le migliori performance su tre benchmark knowledge-intensive di visual question answering. RMCD può essere implementato semplicemente sostituendo il metodo di decodifica degli LVLM senza necessità di ulteriore training. Le analisi mostrano anche che RMCD è robusto ai risultati del retrieval, mantenendo performance elevate anche con risultati di retrieval meno accurati. Il codice è disponibile su GitHub.

Decodifica contrastiva multi-contesto per il Visual Question Answering

Retrieval-Augmented Generation (RAG)

Relevance-aware Multi-context Contrastive Decoding (RMCD)

Risultati sperimentali

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Riduzione del bias testuale nei VLM per guida autonoma

Blueprint: Retrieval multimodale per disegni tecnici complessi

HybridRAG: Chatbot LLM con Knowledge Base Pre-Generata

👥 Unisciti a 160+ appassionati di AI