自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="lxmer"></sub>

<sub id="lxmer"></sub>

<style id="lxmer"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

一種支持4種多模態(tài)RAG技術(shù)的引擎：VARAG

發(fā)布于 2024-9-29 16:33

瀏覽

0收藏

VARAG（視覺增強(qiáng)檢索和生成）：是一種視覺優(yōu)先的RAG引擎，強(qiáng)調(diào)基于視覺的檢索技術(shù)。它通過視覺語(yǔ)言模型集成視覺和文本數(shù)據(jù)，增強(qiáng)了傳統(tǒng)的檢索增強(qiáng)生成 (RAG) 系統(tǒng)。

?? 支持的檢索技術(shù)

VARAG支持多種檢索技術(shù)，針對(duì)不同用例進(jìn)行了優(yōu)化，包括文本、圖像和多模式文檔檢索。以下是支持的主要技術(shù)：

簡(jiǎn)單RAG（帶OCR）?

簡(jiǎn)單 RAG（檢索增強(qiáng)生成）是一種高效而直接的方法，用于從文檔中提取文本并將其輸入到檢索管道中。VARAG通過Docling 整合了光學(xué)字符識(shí)別 (OCR)，從而可以處理和索引掃描的PDF或圖像。

Docling在Markdown和JSON格式下的輸出示例

一種支持4種多模態(tài)RAG技術(shù)的引擎：VARAG-AI.x社區(qū)

VARAG提取和索引文本后，可以將查詢與文檔中的相關(guān)段落進(jìn)行匹配，為生成基于提取信息的響應(yīng)提供堅(jiān)實(shí)的基礎(chǔ)。此技術(shù)非常適合文本密集的文檔，例如掃描的書籍、合同和研究論文，并且可以與大型語(yǔ)言模型 (LLM) 配對(duì)以生成上下文感知的輸出。

Docling技術(shù)報(bào)告 https://arxiv.org/pdf/2408.09869
https://github.com/DS4SD/docling

視覺RAG

Vision RAG 通過整合視覺信息檢索來(lái)擴(kuò)展傳統(tǒng)的 RAG 技術(shù)，從而彌合文本和圖像之間的差距。使用強(qiáng)大的跨模態(tài)嵌入模型（如 JinaCLIP（由 Jina AI 開發(fā)的 CLIP 的變體）），文本和圖像都被編碼到共享向量空間中。

jina-clip-v1的訓(xùn)練范式，共同優(yōu)化文本-圖像和文本-文本匹配

一種支持4種多模態(tài)RAG技術(shù)的引擎：VARAG-AI.x社區(qū)

這允許跨不同模態(tài)進(jìn)行相似性搜索，這意味著可以同時(shí)查詢圖像和文本。Vision RAG 特別適用于文檔分析任務(wù)，其中視覺組件（例如，圖形、圖表、圖像）與文本內(nèi)容同樣重要。它對(duì)于圖像字幕或生成產(chǎn)品描述等任務(wù)也很有效，在這些任務(wù)中，理解和關(guān)聯(lián)文本與視覺元素至關(guān)重要。

ColPali RAG?

ColPali RAG代表了一種尖端方法，它通過直接將文檔頁(yè)面嵌入為圖像而不是將其轉(zhuǎn)換為文本來(lái)簡(jiǎn)化傳統(tǒng)的檢索流程。

一種支持4種多模態(tài)RAG技術(shù)的引擎：VARAG-AI.x社區(qū)

該方法利用了Google團(tuán)隊(duì)的視覺語(yǔ)言模型 (VLM) PaliGemma，它將整個(gè)文檔頁(yè)面編碼為矢量嵌入，將頁(yè)面布局和視覺元素視為檢索過程的一部分。ColPali RAG使用受ColBERT（Column BERT）啟發(fā)的后期交互機(jī)制，通過啟用用戶查詢和文檔patches之間的token-level匹配來(lái)增強(qiáng)檢索。這種方法確保了高檢索準(zhǔn)確性，同時(shí)還保持了合理的索引和查詢速度。它對(duì)于富含視覺效果的文檔特別有益，例如信息圖表、表格和復(fù)雜布局，而傳統(tǒng)的基于文本的檢索方法很難處理這些文檔。

ColPali論文: https://arxiv.org/abs/2407.01449
ColPali博客: https://huggingface.co/blog/manu/colpali
ColPali實(shí)戰(zhàn): https://github.com/weaviate/recipes/blob/main/weaviate-features/named-vectors/NamedVectors-ColPali-POC.ipynb

混合ColPali RAG

混合ColPali RAG 結(jié)合了圖像嵌入和ColPali的后期交互機(jī)制的優(yōu)勢(shì)，進(jìn)一步提高了檢索性能。

系統(tǒng)首先使用圖像嵌入（例如來(lái)自 JinaCLIP 等模型）執(zhí)行粗略檢索步驟，以檢索前 k 個(gè)相關(guān)文檔頁(yè)面。
然后，在第二遍中，系統(tǒng)使用 ColPali 后期交互機(jī)制對(duì)這 k 個(gè)頁(yè)面重新排序，以根據(jù)視覺和文本信息確定最終最相關(guān)的頁(yè)面集。

當(dāng)文檔包含復(fù)雜的視覺效果和詳細(xì)的文本時(shí)，這種混合方法特別有用，允許系統(tǒng)利用這兩種內(nèi)容類型進(jìn)行高度準(zhǔn)確的文檔檢索。

?? 開始使用VARAG

每種視覺RAG技術(shù)都被構(gòu)建為一個(gè)類，抽象所有組件并提供以下方法：

from varag.rag import {{RAGTechnique}}


ragTechnique = RAGTechnique()


ragTechnique.index(
  "/path_to_data_source",
  other_relevant_data
)


results = ragTechnique.search("query", top_k=5)


# These results can be passed into the LLM / VLM of your choice

為什么要抽象這么多？

VARAG最初打算快速測(cè)試和評(píng)估不同的基于視覺的 RAG（檢索增強(qiáng)生成）系統(tǒng)，以確定哪一個(gè)最適合我的用例，最終演化成了一個(gè)框架或庫(kù)。

這種抽象旨在簡(jiǎn)化嘗試不同 RAG 范例的過程，而不會(huì)使組件之間的兼容性復(fù)雜化。為了使事情變得簡(jiǎn)單，選擇 LanceDB作為向量存儲(chǔ)，因?yàn)樗子谑褂们铱啥ㄖ菩愿摺?/p>

https://github.com/adithya-s-k/VARAG
https://adithya-s-k.github.io/VARAG/

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

LLM4CS：一種利用LLM提升多輪會(huì)話檢索的效果的方案

arnoldzhw ? 9630瀏覽 ? 0回復(fù)
MRAG：一種多頭RAG，提升具有顯著不同內(nèi)容的多個(gè)文檔復(fù)雜查詢的檢索準(zhǔn)確性

PaperAgent ? 3920瀏覽 ? 0回復(fù)
DeepMind | 在生成的過程中進(jìn)行檢索：一種有潛力完全替代RAG的思路"RICHES"

arnoldzhw ? 3767瀏覽 ? 0回復(fù)
介紹一種實(shí)用的RAG技術(shù)：父文檔檢索（PDR）

51CTO內(nèi)容精選 ? 2493瀏覽 ? 0回復(fù)
15種先進(jìn)的檢索增強(qiáng)生成（RAG）技術(shù)

玄姐聊AGI ? 2515瀏覽 ? 0回復(fù)
一種模塊化大模型Agent框架全棧技術(shù)綜述

PaperAgent ? 3871瀏覽 ? 0回復(fù)
Binary Block Masking：加快稀疏 Attention 的一種新方法

amei2000go ? 3885瀏覽 ? 0回復(fù)
一種將RAG、KG、VS、TF結(jié)合增強(qiáng)領(lǐng)域LLM性能的框架

PaperAgent ? 2773瀏覽 ? 0回復(fù)
COLM 2024：一種新的深度學(xué)習(xí)架構(gòu)——Monotone Deep Boltzmann Machines

AIGC最前線 ? 2658瀏覽 ? 0回復(fù)
VisRAG：清華大學(xué)&面壁智能提出了一種新的RAG思路，效果提升明顯

大語(yǔ)言模型論文跟蹤 ? 2547瀏覽 ? 0回復(fù)
15種先進(jìn)的檢索增強(qiáng)生成（RAG）技術(shù)

Halo咯咯 ? 1969瀏覽 ? 0回復(fù)
表格場(chǎng)景RAG怎么做？TableRAG：一種增強(qiáng)大規(guī)模表格理解框架

大模型自然語(yǔ)言處理 ? 2588瀏覽 ? 0回復(fù)
HiQA：一種用于多文檔問答的層次化上下文增強(qiáng)RAG

大模型自然語(yǔ)言處理 ? 2018瀏覽 ? 0回復(fù)
一種基于學(xué)習(xí)的電池壽命預(yù)測(cè)（Python）

步驚云_32 ? 2259瀏覽 ? 0回復(fù)
來(lái)認(rèn)識(shí)一下 Ivy-VL：一種僅包含 30 億個(gè)邊緣設(shè)備參數(shù)的輕量級(jí)多模態(tài)模型

Halo咯咯 ? 2401瀏覽 ? 0回復(fù)
微軟人工智能研究院推出 OLA-VLM：一種以視覺為中心的優(yōu)化多模態(tài)大型語(yǔ)言模型的方法

Halo咯咯 ? 2463瀏覽 ? 0回復(fù)
一篇綜述：RAG復(fù)雜Query的4種優(yōu)化方案

CourseAI ? 2278瀏覽 ? 0回復(fù)
FlexTok-一種圖像編碼新方式

shizhi02 ? 1520瀏覽 ? 0回復(fù)
Agent 是一種思想，不是技術(shù)！

hm673c38238a021 ? 572瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

首次全面復(fù)盤AI Agents記憶系統(tǒng)：3大類，6種操作！ 1天前發(fā)布
Agentic RAG-R1：讓大模型從「檢索助手」躍升為「思考+搜索王者」！ 2025-05-06 00:47:01發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實(shí)戰(zhàn)教程 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

2025年最值得關(guān)注的十大多模態(tài)大語(yǔ)言模型！ 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復(fù)

上一篇：微軟：RAG并不是你唯一的解決方案！

下一篇：一種將RAG、KG、VS、TF結(jié)合增強(qiáng)領(lǐng)域LLM性能的框架

社區(qū)精華內(nèi)容

目錄

<style id="fw1re"></style>

<blockquote id="fw1re"></blockquote>

<sub id="fw1re"></sub>

<blockquote id="fw1re"><i id="fw1re"><video id="fw1re"></video></i></blockquote>