自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一種支持4種多模態(tài)RAG技術(shù)的引擎:VARAG

發(fā)布于 2024-9-29 16:33
瀏覽
0收藏

VARAG(視覺增強(qiáng)檢索和生成):是一種視覺優(yōu)先的RAG引擎,強(qiáng)調(diào)基于視覺的檢索技術(shù)。它通過視覺語(yǔ)言模型集成視覺和文本數(shù)據(jù),增強(qiáng)了傳統(tǒng)的檢索增強(qiáng)生成 (RAG) 系統(tǒng)。

?? 支持的檢索技術(shù)

VARAG支持多種檢索技術(shù),針對(duì)不同用例進(jìn)行了優(yōu)化,包括文本、圖像和多模式文檔檢索。以下是支持的主要技術(shù):

  • 簡(jiǎn)單RAG(帶OCR)?

簡(jiǎn)單 RAG(檢索增強(qiáng)生成)是一種高效而直接的方法,用于從文檔中提取文本并將其輸入到檢索管道中。VARAG通過Docling 整合了光學(xué)字符識(shí)別 (OCR),從而可以處理和索引掃描的PDF或圖像。


Docling在Markdown和JSON格式下的輸出示例

一種支持4種多模態(tài)RAG技術(shù)的引擎:VARAG-AI.x社區(qū)

VARAG提取和索引文本后,可以將查詢與文檔中的相關(guān)段落進(jìn)行匹配,為生成基于提取信息的響應(yīng)提供堅(jiān)實(shí)的基礎(chǔ)。此技術(shù)非常適合文本密集的文檔,例如掃描的書籍、合同和研究論文,并且可以與大型語(yǔ)言模型 (LLM) 配對(duì)以生成上下文感知的輸出。

Docling技術(shù)報(bào)告 https://arxiv.org/pdf/2408.09869
https://github.com/DS4SD/docling
  • 視覺RAG

Vision RAG 通過整合視覺信息檢索來(lái)擴(kuò)展傳統(tǒng)的 RAG 技術(shù),從而彌合文本和圖像之間的差距。使用強(qiáng)大的跨模態(tài)嵌入模型(如 JinaCLIP(由 Jina AI 開發(fā)的 CLIP 的變體)),文本和圖像都被編碼到共享向量空間中。

jina-clip-v1的訓(xùn)練范式,共同優(yōu)化文本-圖像和文本-文本匹配

一種支持4種多模態(tài)RAG技術(shù)的引擎:VARAG-AI.x社區(qū)

這允許跨不同模態(tài)進(jìn)行相似性搜索,這意味著可以同時(shí)查詢圖像和文本。Vision RAG 特別適用于文檔分析任務(wù),其中視覺組件(例如,圖形、圖表、圖像)與文本內(nèi)容同樣重要。它對(duì)于圖像字幕或生成產(chǎn)品描述等任務(wù)也很有效,在這些任務(wù)中,理解和關(guān)聯(lián)文本與視覺元素至關(guān)重要。

  • ColPali RAG?

ColPali RAG代表了一種尖端方法,它通過直接將文檔頁(yè)面嵌入為圖像而不是將其轉(zhuǎn)換為文本來(lái)簡(jiǎn)化傳統(tǒng)的檢索流程。

一種支持4種多模態(tài)RAG技術(shù)的引擎:VARAG-AI.x社區(qū)

該方法利用了Google團(tuán)隊(duì)的視覺語(yǔ)言模型 (VLM) PaliGemma,它將整個(gè)文檔頁(yè)面編碼為矢量嵌入,將頁(yè)面布局和視覺元素視為檢索過程的一部分。ColPali RAG使用受ColBERT(Column BERT)啟發(fā)的后期交互機(jī)制,通過啟用用戶查詢和文檔patches之間的token-level匹配來(lái)增強(qiáng)檢索。這種方法確保了高檢索準(zhǔn)確性,同時(shí)還保持了合理的索引和查詢速度。它對(duì)于富含視覺效果的文檔特別有益,例如信息圖表、表格和復(fù)雜布局,而傳統(tǒng)的基于文本的檢索方法很難處理這些文檔。

ColPali論文: https://arxiv.org/abs/2407.01449
ColPali博客: https://huggingface.co/blog/manu/colpali
ColPali實(shí)戰(zhàn): https://github.com/weaviate/recipes/blob/main/weaviate-features/named-vectors/NamedVectors-ColPali-POC.ipynb


  • 混合ColPali RAG

混合ColPali RAG 結(jié)合了圖像嵌入和ColPali的后期交互機(jī)制的優(yōu)勢(shì),進(jìn)一步提高了檢索性能。

  • 系統(tǒng)首先使用圖像嵌入(例如來(lái)自 JinaCLIP 等模型)執(zhí)行粗略檢索步驟,以檢索前 k 個(gè)相關(guān)文檔頁(yè)面。
  • 然后,在第二遍中,系統(tǒng)使用 ColPali 后期交互機(jī)制對(duì)這 k 個(gè)頁(yè)面重新排序,以根據(jù)視覺和文本信息確定最終最相關(guān)的頁(yè)面集。

當(dāng)文檔包含復(fù)雜的視覺效果和詳細(xì)的文本時(shí),這種混合方法特別有用,允許系統(tǒng)利用這兩種內(nèi)容類型進(jìn)行高度準(zhǔn)確的文檔檢索。

?? 開始使用VARAG

每種視覺RAG技術(shù)都被構(gòu)建為一個(gè)類,抽象所有組件并提供以下方法:

from varag.rag import {{RAGTechnique}}


ragTechnique = RAGTechnique()


ragTechnique.index(
  "/path_to_data_source",
  other_relevant_data
)


results = ragTechnique.search("query", top_k=5)


# These results can be passed into the LLM / VLM of your choice


為什么要抽象這么多?

VARAG最初打算快速測(cè)試和評(píng)估不同的基于視覺的 RAG(檢索增強(qiáng)生成)系統(tǒng),以確定哪一個(gè)最適合我的用例,最終演化成了一個(gè)框架或庫(kù)。

這種抽象旨在簡(jiǎn)化嘗試不同 RAG 范例的過程,而不會(huì)使組件之間的兼容性復(fù)雜化。為了使事情變得簡(jiǎn)單,選擇 LanceDB作為向量存儲(chǔ),因?yàn)樗子谑褂们铱啥ㄖ菩愿摺?/p>


https://github.com/adithya-s-k/VARAG
https://adithya-s-k.github.io/VARAG/

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦