自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

HiQA:一種用于多文檔問答的層次化上下文增強RAG 原創(chuàng)

發(fā)布于 2024-11-26 11:17
瀏覽
0收藏

前言

文檔領域的RAG,之前的工作如ChatPDF等很多的RAG框架,文檔數(shù)量一旦增加,將導致響應準確性下降,如下圖;現(xiàn)有RAG方法在處理具有相似內(nèi)容(在面對大量難以區(qū)分的文檔時)和結(jié)構(gòu)的文檔時表現(xiàn)不佳;用戶查詢常常涉及元信息,還增加了檢索和生成的復雜性,導致檢索的準確性會下降,本文介紹的方法-HiQA,一種用于主要解決多文檔問答(MDQA)中的檢索增強生成方法。

HiQA:一種用于多文檔問答的層次化上下文增強RAG-AI.x社區(qū)

數(shù)量多文檔RAG對著文檔數(shù)量的性能變化

方法

提出了HiQA框架,用于解決多文檔問答中的檢索準確性問題。該框架主要由Markdown格式化器(Markdown Formatter)、分層上下文增強器(Hierarchical Contextual Augmentor, HCA)、多路徑檢索器(Multi-Route Retriever, MRR)三部分組成。

Markdown格式化器(Markdown Formatter)

該部分主要是使用大模型的方式指導文檔解析生成markdown的過程,這樣的比較耗費時間,可以考慮替換成一些輕量的解析方法,常見的過程可以參考以往的一些文檔??《【文檔智能 & RAG】RAG增強之路:增強PDF解析并結(jié)構(gòu)化技術(shù)路線方案及思路》??

下面看看這篇文章介紹的過程:

HiQA:一種用于多文檔問答的層次化上下文增強RAG-AI.x社區(qū)

首先,使用LLM將源文檔轉(zhuǎn)換為Markdown格式的文檔,每個章節(jié)對應一個自然段落,包含章節(jié)元數(shù)據(jù)和內(nèi)容。LLM的處理過程如下:

HiQA:一種用于多文檔問答的層次化上下文增強RAG-AI.x社區(qū)

其中,DI是輸入的PDF文檔,DM是輸出的Markdown文檔,MC是語言模型,D(t)m是第個時間步的輸出。

對于圖片引用: 利用一個名為PDFImageSearcher的開源工具,用于從文檔中提取位圖和SVG矢量圖 像,以及一個API來檢索圖像。它利用圖像周圍的文本、圖像標題和一個可選的視覺語言模型,為每個圖像生成一個描述性文件。

HiQA:一種用于多文檔問答的層次化上下文增強RAG-AI.x社區(qū)

對表格增強:表格的語義值源自其定義,包括整體描述、標題和行/列標簽,因此,在嵌入表格時,僅關注這些語義元素,將表格視為類似文本知識。

HiQA:一種用于多文檔問答的層次化上下文增強RAG-AI.x社區(qū)

表格嵌入。為了在嵌入過程中減少噪聲,省略了數(shù)據(jù)字段。但是,如果檢索到這些數(shù)據(jù)字段,它們將被保留以提供LLM的上下文

對圖片增強:利用視覺語言生成模型來創(chuàng)建描述性標題,這些標題包含了圖像的顯著特征。然后對這些標題進行嵌入。

HiQA:一種用于多文檔問答的層次化上下文增強RAG-AI.x社區(qū)

應用視覺-語言模型生成圖像語義的文本描述,然后將其納入片段中

總之,為了得到高質(zhì)量的文檔處理結(jié)果,使用指令進行生成markdown核心思想如下:

  • 將文檔中的每一章,無論其級別如何,都視為Markdown中的一級標題,并附上數(shù)字標識符。將每章視為一個知識片段,而不是固定大小的塊。
  • 設置正確的章節(jié)編號,后面跟著章節(jié)標題。
  • 通過Markdown語法生成表格并記錄表格標題。

分層上下文增強器(Hierarchical Contextual Augmentor, HCA)

使用級聯(lián)文檔結(jié)構(gòu)在數(shù)據(jù)處理過程中進行文本增強:

HiQA:一種用于多文檔問答的層次化上下文增強RAG-AI.x社區(qū)

從Markdown文件中提取層次結(jié)構(gòu)元數(shù)據(jù),并將其級聯(lián)到每個章節(jié),形成增強的段落。具體步驟包括:

  • 使用深度優(yōu)先搜索遍歷章節(jié)樹,連接和傳遞元數(shù)據(jù)。
  • 對文本、表格和圖像等不同類型的段落進行不同的處理。

多路徑檢索器(Multi-Route Retriever, MRR)

最后,采用多路徑檢索方法來找到最適合的段落,并將其作為上下文輸入到語言模型中。具體方法包括:

  • 向量相似性匹配:使用Elasticsearch和BM25。
  • 關鍵詞匹配:使用預訓練的關鍵實體檢測模型提取關鍵詞。
  • 補償向量相似性限制:結(jié)合基于頻率的檢索技術(shù)和關鍵詞排名策略。

HiQA:一種用于多文檔問答的層次化上下文增強RAG-AI.x社區(qū)

綜合以上三個組件,形成了HiQA框架。公式如下:

HiQA:一種用于多文檔問答的層次化上下文增強RAG-AI.x社區(qū)

其中,α、β是超參數(shù),分別平衡向量相似性和信息檢索得分的貢獻,表示匹配的關鍵詞數(shù)量。

實驗效果

HiQA:一種用于多文檔問答的層次化上下文增強RAG-AI.x社區(qū)

HiQA:一種用于多文檔問答的層次化上下文增強RAG-AI.x社區(qū)

總結(jié)

本文介紹了HiQA,這是一個專門為了解決現(xiàn)有RAG在多文檔問答(MDQA)環(huán)境中的局限性而設計的新型框架,特別是在處理無法區(qū)分的多文檔時。利用文檔的結(jié)構(gòu)元數(shù)據(jù)有效地進行塊分割和嵌入增強,并輔以多路檢索機制以提高檢索效率。

參考文獻

  • HiQA: A Hierarchical Contextual Augmentation RAG for Multi-Documents QA,https://arxiv.org/pdf/2402.01767v2


本文轉(zhuǎn)載自公眾號大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/dDkB93ga4PsI-ywcwoqceQ??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
標簽
已于2024-11-28 18:47:56修改
收藏
回復
舉報
回復
相關推薦