自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)文檔檢索開源方案-三大競賽獲獎(jiǎng)方案技術(shù)鏈路 原創(chuàng)

發(fā)布于 2025-5-12 08:57
瀏覽
0收藏

前期也提到,在實(shí)際場景中,用戶通常需要檢索多模態(tài)文檔,包括文本、圖像、表格和圖表。這需要一個(gè)更復(fù)雜的檢索系統(tǒng),能夠處理多模態(tài)信息,并根據(jù)用戶查詢提供相關(guān)文檔或段落。檢索多模態(tài)文檔將有助于 AI 聊天機(jī)器人、搜索引擎和其他應(yīng)用程序向用戶提供更準(zhǔn)確、更相關(guān)的信息。因此衍生了一系列的多模態(tài)RAG方案,如:??開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強(qiáng)生成方案-VDocRAG???提到的諸多方案。

下面來看看www會(huì)議開設(shè)的多模態(tài)文檔檢索挑戰(zhàn)賽的三個(gè)獲獎(jiǎng)方案。

概述:多模態(tài)文檔檢索任務(wù)專注于對(duì)多模態(tài)文檔或網(wǎng)頁中的段落進(jìn)行建模,利用文本和多模態(tài)信息進(jìn)行嵌入建模。最終目標(biāo)是根據(jù)用戶的文本或多模態(tài)查詢檢索相關(guān)的多模態(tài)文檔或段落。

任務(wù)一:MMDocIR – 長文檔的多模態(tài)檢索

此任務(wù)旨在評(píng)估檢索系統(tǒng)識(shí)別文檔中視覺豐富的信息的能力。MMDocIR 評(píng)估集包含 313 篇長文檔,平均篇幅 65.1 頁,涵蓋多個(gè)領(lǐng)域:研究報(bào)告、行政管理、行業(yè)、教程、研討會(huì)、學(xué)術(shù)論文、宣傳冊(cè)、財(cái)務(wù)報(bào)告、指南、政府文件、法律和新聞文章。不同領(lǐng)域的多模態(tài)信息分布各異。

每個(gè)領(lǐng)域都呈現(xiàn)出獨(dú)特的多模態(tài)信息分布,帶來了不同的檢索挑戰(zhàn)。

目標(biāo):對(duì)于給定的文本查詢 → 檢索相關(guān)文檔頁面: 識(shí)別文檔中與用戶查詢最相關(guān)的頁面。每個(gè)查詢的檢索范圍僅限于給定文檔中的所有頁面。

數(shù)據(jù)集:MMDocIR

任務(wù) 2:M2KR – 開放域視覺檢索基準(zhǔn)

此任務(wù)評(píng)估檢索系統(tǒng)在開放域場景(包括維基百科網(wǎng)頁)中檢索視覺豐富的信息的能力。它涉及多種主題、形式(圖形、表格、文本)和語言。原始 M2KR 數(shù)據(jù)集僅包含從維基百科頁面中提取的文本。我們擴(kuò)展了數(shù)據(jù)集,以包含維基百科頁面的屏幕截圖。

子任務(wù):

圖片→Wiki文檔檢索: 數(shù)據(jù)集: WIT、KVQA。 圖片+文字→Wiki文檔檢索: 數(shù)據(jù)集: OVEN、OKVQA、Infoseek、E-VQA。

Rank1

code:https://github.com/hbhalpha/MDR

多模態(tài)文檔檢索開源方案-三大競賽獲獎(jiǎng)方案技術(shù)鏈路-AI.x社區(qū)

多模態(tài)文檔檢索開源方案-三大競賽獲獎(jiǎng)方案技術(shù)鏈路-AI.x社區(qū)

流程圖

  1. 首先使用cv_tools/DINO識(shí)別視覺關(guān)鍵點(diǎn)
  • 通過視覺模型(如DINO)提取輸入數(shù)據(jù)的視覺關(guān)鍵點(diǎn)特征,得到視覺關(guān)鍵點(diǎn)結(jié)果。
  1. 訓(xùn)練五個(gè)不同參數(shù)的專家模型進(jìn)行雙任務(wù)投票
  • 構(gòu)建五個(gè)參數(shù)配置不同的專家模型(如不同超參數(shù)或初始化),每個(gè)專家模型同時(shí)參與兩個(gè)任務(wù)的決策投票。
  • 所有專家模型的集成(整體)視為一個(gè)統(tǒng)一模型。
  1. 融合專家投票結(jié)果與視覺關(guān)鍵點(diǎn)結(jié)果
  • 將視覺關(guān)鍵點(diǎn)特征與專家模型的投票結(jié)果進(jìn)行融合,最終形成統(tǒng)一模型輸出。
  • 核心特性:五個(gè)專家模型與DINO共同構(gòu)成一個(gè)統(tǒng)一模型,天然支持兩個(gè)任務(wù),且無需針對(duì)特定任務(wù)單獨(dú)訓(xùn)練。

Rank2:視覺豐富的多粒度檢索框架

code:https://github.com/i2vec/MMDocRetrievalChallenge 框架分為兩個(gè)主要組成部分:

  1. M2KR,通過整合的視覺和文本關(guān)注細(xì)粒度區(qū)域級(jí)別的檢索
  2. MMDocIR,將全頁檢索與詳細(xì)的區(qū)域和基于OCR的檢索階段結(jié)合起來

M2KR: Multimodal Region Retrieval with Fusion

多模態(tài)文檔檢索開源方案-三大競賽獲獎(jiǎng)方案技術(shù)鏈路-AI.x社區(qū)

流程圖詳細(xì)思路如下:

輸入

  • 候選頁面被分割成多個(gè)區(qū)域,以獲得區(qū)域級(jí)表示。
  • 使用Qwen2.5-VL模型生成候選頁面的文本描述,提供互補(bǔ)的語義信息。
  • 用戶查詢(可以是文本、圖像或多模態(tài)格式)也被處理成統(tǒng)一的嵌入空間。

過程

  • 應(yīng)用三種匹配策略:
  1. 基于區(qū)域嵌入的純圖像檢索。
  2. 結(jié)合查詢和區(qū)域特征的多模態(tài)檢索。
  3. 查詢和候選文本描述之間的純文本檢索。
  • 計(jì)算每種模態(tài)的余弦相似度(CosSim)。
  • 將三種匹配策略的相關(guān)性得分融合,綜合考慮視覺、多模態(tài)和文本信號(hào)。

輸出: 經(jīng)過分值融合后,使用基于VLM的驗(yàn)證模塊評(píng)估查詢與候選結(jié)果的語義對(duì)齊。過濾模塊促進(jìn)高置信度的匹配,丟棄誤報(bào),確保最終結(jié)果既精確又與查詢語義一致。

MMDocIR: Full-Page Retrieval with Multistage Validation

多模態(tài)文檔檢索開源方案-三大競賽獲獎(jiǎng)方案技術(shù)鏈路-AI.x社區(qū)

輸入

  • 文本形式的用戶查詢
  • 候選文檔頁面的全頁圖像、分割區(qū)域圖像OCR識(shí)別的文本多種粒度,以實(shí)現(xiàn)多粒度檢索。

過程

  • 使用ColQwen2-7B對(duì)用戶查詢和全頁圖像候選進(jìn)行編碼,進(jìn)行初始全頁檢索。
  • 使用GME-7B進(jìn)行兩個(gè)額外的檢索路徑:多模態(tài)文檔檢索開源方案-三大競賽獲獎(jiǎng)方案技術(shù)鏈路-AI.x社區(qū)
  • GME框架,https://arxiv.org/pdf/2412.16855
  1. 文本到OCR文本檢索,將查詢與頁面提取的OCR文本匹配。
  2. 文本到區(qū)域圖像檢索,將查詢與分割的區(qū)域圖像匹配。
  • 計(jì)算每種檢索路徑的余弦相似度(CosSim)。
  • 將全頁檢索、OCR文本檢索和區(qū)域圖像檢索的相關(guān)性得分融合,結(jié)合全局、文本和區(qū)域信息。

輸出:經(jīng)過分值融合后,使用基于VLM的驗(yàn)證模塊(由Qwen2.5-VL模型驅(qū)動(dòng))對(duì)排名靠前的候選結(jié)果進(jìn)行語義驗(yàn)證。驗(yàn)證模塊進(jìn)行細(xì)粒度的跨模態(tài)驗(yàn)證,確認(rèn)查詢意圖與候選內(nèi)容的一致性,確保最終結(jié)果具有高精度和可靠性。

融合和驗(yàn)證機(jī)制

1、多源分?jǐn)?shù)融合

實(shí)施兩層分值融合過程:

  • 模態(tài)分值整合階段:GME模型為每個(gè)候選生成三種相關(guān)性得分:文本到OCR文本相似度、文本到區(qū)域圖像相似度和查詢與區(qū)域特征之間的多模態(tài)相似度。這些得分捕捉文檔相關(guān)性的不同方面,并用于初始排名,提供豐富的多粒度匹配信號(hào)。
  • 融合GME和ColQwen檢索路徑的輸出:應(yīng)用RRF,通過為每個(gè)檢索路徑的頂部排名結(jié)果分配更高權(quán)重,有效平衡全局和細(xì)粒度檢索信號(hào)。融合后的排名確保不同模型的強(qiáng)候選結(jié)果被共同考慮,增強(qiáng)檢索的魯棒性。

2、VLM驗(yàn)證機(jī)制

在融合步驟之后,應(yīng)用基于VLM的驗(yàn)證過程,使用Qwen2.5-VL模型進(jìn)行語義驗(yàn)證。該模塊通過預(yù)測每個(gè)候選是否為真實(shí)匹配(Yes)或不匹配(No)來執(zhí)行語義驗(yàn)證。驗(yàn)證通過的候選結(jié)果在最終輸出中被優(yōu)先考慮,確保只有具有強(qiáng)語義對(duì)齊的結(jié)果被保留。這一驗(yàn)證步驟增加了跨模態(tài)理解的關(guān)鍵層,超越了傳統(tǒng)的基于相似度的方法,進(jìn)一步優(yōu)化了檢索結(jié)果。

Rank3

方案分兩步:MMDocIR和M2KR

MMDocIR

code:https://github.com/bargav25/MultiModal_InformationRetrieval/tree/main/Task1_MMDocIR

多模態(tài)文檔檢索開源方案-三大競賽獲獎(jiǎng)方案技術(shù)鏈路-AI.x社區(qū)

流程

  1. 使用基于 ColQwen 的模型,根據(jù)圖像和 VLM 文本生成每個(gè)頁面的圖像和文本嵌入。然后融合這些嵌入。
  2. 根據(jù)文本查詢(即問題)查找查詢嵌入
  3. 使用后期交互機(jī)制查找頁面嵌入和查詢嵌入之間的相似度分?jǐn)?shù)。
  4. 檢索前 5 個(gè)頁面


多模態(tài)文檔檢索開源方案-三大競賽獲獎(jiǎng)方案技術(shù)鏈路-AI.x社區(qū)


M2KR:使用 Wikipedia + FAISS 進(jìn)行多模態(tài)檢索

code:https://github.com/bargav25/MultiModal_InformationRetrieval/tree/main/Task2_M2KR

該項(xiàng)目實(shí)現(xiàn)了一個(gè)端到端的視覺檢索流程,該流程接收查詢圖像,并通過將其與從維基百科頁面抓取或提取的圖像進(jìn)行匹配,檢索出最相關(guān)的維基百科文章。它使用來自 ColQwen2 和 FAISS 的嵌入進(jìn)行高效的相似性搜索,并支持從實(shí)時(shí)維基百科頁面抓取圖像以及從屏幕截圖中提取圖像。

功能如下:

  1. 根據(jù)查詢文件名從維基百科文章中抓取圖像(或者,您可以選擇使用傳統(tǒng)的 OpenCV 技術(shù)從維基百科截圖中提取圖像:檢查extract_images.py)
  2. ??? 使用基于 Transformer 的視覺模型生成密集嵌入(ColQwen2)
  3. ? 使用 FAISS 索引段落圖像(IndexFlatL2)
  4. ?? 根據(jù)查詢檢索前 k 個(gè)最相關(guān)的圖像
  5. ?? 模塊化代碼:可輕松擴(kuò)展到其他數(shù)據(jù)集或模型

參考文獻(xiàn):

A Multi-Granularity Retrieval Framework for Visually-Rich Documents,https://arxiv.org/pdf/2505.01457v2

??https://erel-mir.github.io/challenge/overview/??


公眾號(hào)大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/1u17IU7XMRNZhq2VFLSBdg??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-5-12 10:49:00修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦