自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG 原創(chuàng)

發(fā)布于 2025-5-9 06:36
瀏覽
0收藏

下面來看一個新的RAG框架VDocRAG,用于解決視覺文檔問答問題。

視覺文檔問答概述

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

OpenDocVQA任務的目標是給定一個文檔圖像集合和一個問題,通過找到相關的文檔圖像來輸出答案。任務分為兩個階段:

  1. 視覺文檔檢索(Visual Document Retrieval)

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

  1. 文檔視覺問答(DocumentVQA)

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

方法架構

VDocRAG由兩個主要組件組成:VDocRetriever和VDocGenerator,下面來看看這兩個組件。

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

VDocRetriever(檢索器)

VDocRetriever基于LVLM的雙編碼器架構,用于檢索與查詢問題相關的文檔圖像。

  1. 動態(tài)高分辨率圖像編碼:使用動態(tài)裁剪將高分辨率圖像分割成較小的patch,每個patch大小為 336X336 像素。將這些patch作為單獨的輸入傳遞給圖像編碼器,并將其轉換為視覺文檔特征 Zd
  2. 編碼過程:在VDocRetriever中,問題和視覺文檔特征被獨立編碼。在問題的末尾添加一個 <EOS>(End of Sequence)標記,并將其與視覺文檔特征一起輸入到LVLM中。通過取最后一個 <EOS> 向量來獲得問題和視覺文檔的嵌入 Hq和 Hd。
  3. 相似度計算:使用最大內(nèi)積搜索計算問題和視覺文檔嵌入之間的相似度分數(shù):

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

  1. 檢索過程:根據(jù)相似度分數(shù)檢索與問題最相關的 k 個文檔。

VDocGenerator(生成器)

VDocGenerator使用VDocRetriever檢索到的文檔圖像來生成答案。

  1. 編碼過程:編碼檢索結果后,將問題和編碼后的結果連接起來,并將其輸入到LVLM中。
  2. 生成過程:LVLM根據(jù)輸入生成答案。

自監(jiān)督預訓練

預訓練的目標是遷移 LVLM 強大的理解和生成能力,以促進其在視覺文檔檢索中的應用。為此,提出了兩個新的自監(jiān)督預訓練任務,將整個圖像表示壓縮為輸入圖像末尾的 EOS 令牌。我們的預訓練過程傳遞文檔圖像,并將其提取的 OCR 文本用作偽目標。完整的預訓練目標定義為損失之和,如下所示。

通過檢索進行表示壓縮 (RCR)

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

使用對比學習任務通過檢索與OCR文本相關的圖像來壓縮圖像表示。構建正樣本OCR文本-圖像對,并使用InfoNCE損失函數(shù)計算對比損失:

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

通過生成進行表示壓縮 (RCG)

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

使用自定義的注意力掩碼矩陣來利用LVLM的生成能力。對圖像標記的表示進行掩碼,僅允許 <EOS> 標記和前面的OCR標記的注意力。通過標準自回歸過程獲取圖像標記的表示,并將它們壓縮到 <EOS> 標記中。定義損失函數(shù):

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

其中 yi 表示OCR的第 i 個標記。

實驗表現(xiàn)

檢索結果

VDocRetriever 在未見數(shù)據(jù)集 ChartQA 和 SlideVQA 上表現(xiàn)出卓越的零樣本泛化能力,優(yōu)于現(xiàn)成的文本檢索器和最先進的視覺文檔檢索模型。

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

RAG 結果

即使所有模型都采用相同的初始化,VDocRAG 在 DocumentVQA 任務上的表現(xiàn)也明顯優(yōu)于閉卷 LLM 和基于文本的 RAG。

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

VDocRAG 在理解布局和可視化內(nèi)容(例如表格、圖表、圖形和示意圖)方面展現(xiàn)出顯著的性能優(yōu)勢。這些發(fā)現(xiàn)凸顯了將文檔表示為圖像對于提升 RAG 框架性能的關鍵作用。

參考文獻:https://arxiv.org/abs/2504.09795,VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents

code:https://github.com/nttmdlab-nlp/VDocRAG


公眾號大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/E4R4qDcWkwXrdao3x4v4YA???


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-5-9 06:36:52修改
收藏
回復
舉報
回復
相關推薦