自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

HybGRAG:Hit@1 的平均相對(duì)提升率達(dá)到 51%的新思路

發(fā)布于 2025-1-3 13:52
瀏覽
0收藏

1. 傳統(tǒng)RAG存在的問題

檢索增強(qiáng)生成(Retrieval-Augmented Generation ,RAG)能讓大型語言模型(LLMs)從非結(jié)構(gòu)化文檔數(shù)據(jù)庫獲取信息,使得LLMs 就能處理未知事實(shí),并借助額外的文本信息解決開放域問答(Open-Domain Question Answering,ODQA)問題。

圖檢索增強(qiáng)生成(Graph RAG,GRAG)從結(jié)構(gòu)化知識(shí)庫中檢索信息,其中的文檔通過關(guān)系相互關(guān)聯(lián)。現(xiàn)有的 GRAG 方法主要集中在兩個(gè)方向:

? 從知識(shí)圖譜(Knowledge Graphs,KGs)中提取關(guān)系信息,并利用 LLMs 進(jìn)行知識(shí)庫問答,以及在數(shù)據(jù)庫中的文檔間建立關(guān)系以提升 ODQA 性能。

? “混合”問答(Hybrid Question Answering,HQA):給定一個(gè)半結(jié)構(gòu)化知識(shí)庫(Semi-structured Knowledge Base,SKB),通過結(jié)構(gòu)化數(shù)據(jù)和文本數(shù)據(jù)共同完成一個(gè)問題的答案。SKB 由知識(shí)圖譜(也就是結(jié)構(gòu)化數(shù)據(jù)庫)和非結(jié)構(gòu)化文本文檔構(gòu)成,其中文本文檔與 KG 的實(shí)體相關(guān)聯(lián)。

HybGRAG:Hit@1 的平均相對(duì)提升率達(dá)到 51%的新思路-AI.x社區(qū)圖片

但是,通過現(xiàn)有分析表明,現(xiàn)有的RAG或者GRAG都無法有效解決HQA問題:

? 其一,這兩種方法只專注于檢索文本或關(guān)系信息。

? 其二,在混合問題中,檢索不同類型信息所需的方面可能難以區(qū)分。如上圖,通過問題路由識(shí)別問題。但在不成功的路由中,文本方面“納米流體傳熱論文”和關(guān)系方面“由 John Smith 撰寫”之間的混淆會(huì)導(dǎo)致不正確的檢索。

2. 什么是HYB GRAG?

為解決 SKB 中的 HQA,我們提出 HYB GRAG(HYBrid Graph RAG)。HYB GRAG 利用檢索器庫處理混合問題,同時(shí)利用文本和關(guān)系信息。總體上,HYB GRAG有以下特點(diǎn):

? 智能體(Agentic):通過自我反思自動(dòng)優(yōu)化問題路由;

? 自適應(yīng)(Adaptive):通過統(tǒng)一框架解決文本、關(guān)系和混合問題;

? 可解釋(Interpretable):通過直觀的優(yōu)化路徑證明決策的合理性;

? 有效(Effective):在真實(shí)世界的 HQA 基準(zhǔn)測(cè)試中優(yōu)于所有基線。

2.1 HQA面臨的兩個(gè)問題:

2.1.1 C1: 混合來源問題(Hybrid-Sourcing Question)

作者通過一系列實(shí)驗(yàn),證明了HQA需要同時(shí)借助文本和關(guān)系信息來回答混合問題,表明文本文檔和知識(shí)圖譜(KG)包含有用但不重合的信息。

結(jié)果表明:

? 向量相似度搜索(Vector Similarity Search,VSS)作為僅使用文本信息的檢索器,通過在嵌入空間中對(duì)比問題與文檔來進(jìn)行檢索和排序;

? 個(gè)性化 PageRank(PPR):作為僅使用關(guān)系信息的檢索器,從 LLM 識(shí)別出的實(shí)體出發(fā)進(jìn)行隨機(jī)游走,并依據(jù)它們?cè)?SKB 的 KG 中的連通性對(duì)相鄰實(shí)體進(jìn)行排名。

HybGRAG:Hit@1 的平均相對(duì)提升率達(dá)到 51%的新思路-AI.x社區(qū)圖片

如上圖,文本和關(guān)系檢索器的性能不相上下。如果最優(yōu)路由總是選擇能給出正確結(jié)果的檢索器,性能會(huì)大幅提升,這表明文本和圖形檢索器的優(yōu)勢(shì)幾乎不存在重疊。表明通過協(xié)同這兩個(gè)檢索器來同時(shí)利用文本和關(guān)系信息的解決方案的重要性。

2.1.2 C2:需要改進(jìn)的問題

KBQA 的成功往往依賴于這樣一個(gè)假設(shè):目標(biāo)實(shí)體處于從知識(shí)圖譜(KG)中抽取的子圖內(nèi)。同樣,在 HQA 中回答問題需要從 SKB 里的 KG 抽取子圖。

由于混合問題兼具文本和關(guān)系兩方面,因此作者測(cè)試 LLM 能否從 KG 中抽取包含目標(biāo)實(shí)體的子圖

1. 通過提示詞識(shí)別問題中的關(guān)系層面,即實(shí)體和用于抽取子圖的有用關(guān)系。

2. 若目標(biāo)實(shí)體不在子圖中,則利用一個(gè)通過提示詞進(jìn)行帶有反饋的額外迭代。

HybGRAG:Hit@1 的平均相對(duì)提升率達(dá)到 51%的新思路-AI.x社區(qū)圖片

如上表:

? (第二行)若結(jié)果有誤,單純提示 LLM 重新抽取會(huì)獲得更高的命中率。

? (第三行)如果 LLM 收到指出抽取錯(cuò)誤部分的反饋(比如,抽取的主題實(shí)體有誤),結(jié)果會(huì)顯著提升。這是因?yàn)樵诎谋竞完P(guān)系方面的混合問題中,LLM 可能會(huì)誤將文本方面當(dāng)作關(guān)系方面。

所以第二個(gè)挑戰(zhàn):在 HQA 中,LLM 首次嘗試時(shí)難以區(qū)分問題的文本和關(guān)系方面,故而需要進(jìn)一步完善。

2.2 針對(duì)C1提出的新的檢索庫架構(gòu)

HYB GRAG的檢索模塊由多個(gè)檢索模塊和一個(gè)路由器構(gòu)成的檢索器庫。

設(shè)計(jì)了兩個(gè)檢索模塊,分別是文本檢索模塊混合檢索模塊,用于從文本文檔和 SKB 中獲取信息。每個(gè)檢索模塊均包含一個(gè)檢索器和一個(gè)排序器,用來應(yīng)對(duì)各類問題提供了靈活性。

?文本檢索模塊:通過針對(duì)給定問題 Q 的相似性搜索來檢索文檔,比如密集檢索,直接在文本文檔中找到答案。

?混合檢索模塊:將識(shí)別出的實(shí)體 E 和有用關(guān)系 R 作為輸入。使用圖形檢索器提取由 R 連接的 E 的自環(huán)圖中的實(shí)體。

?路由器:給定一個(gè)問題 Q,LLM 路由器執(zhí)行問題路由來確定檢索模塊的選擇和使用。路由器首先依據(jù)實(shí)體類型和關(guān)系類型,借助少量示例識(shí)別關(guān)系方面,即實(shí)體 E 和有用關(guān)系 R 。然后路由器做出選擇,決定采用文本檢索模塊還是混合檢索模塊。

2.3 針對(duì)C2提出的評(píng)論模塊

給定一個(gè)混合問題 Q,路由器需執(zhí)行問題路由,包括識(shí)別實(shí)體和有用關(guān)系 。但在首次迭代中它們可能會(huì)被錯(cuò)誤識(shí)別。

為解決此問題,提出評(píng)論模塊,能提供反饋以助力路由器更好地執(zhí)行問題路由。作者沒有直接采用單個(gè) LLM 完成這一復(fù)雜任務(wù),而是將其分為兩部分:

? 即 LLM 驗(yàn)證器用于驗(yàn)證檢索結(jié)果的正確性

? LLM 評(píng)論員用于在檢索有誤時(shí)提供反饋

這種分治策略,具有兩大關(guān)鍵優(yōu)勢(shì):

1.將難題分解為兩個(gè)較易處理的任務(wù),能借助 LLM 來解決,同時(shí)保持良好性能。

  1. 由于驗(yàn)證和評(píng)論的任務(wù)相互獨(dú)立,各自可有專屬上下文,避免包含無關(guān)信息及“Lost in the Middle”的現(xiàn)象。

2.3.1 驗(yàn)證器 LLM

驗(yàn)證器的目的是驗(yàn)證檢索到的頂級(jí)參考文獻(xiàn)是否符合問題 Q 的要求,屬于二分類任務(wù)。為提高準(zhǔn)確性,為驗(yàn)證器提供額外的驗(yàn)證上下文。將主題實(shí)體與提取的自我圖中實(shí)體間的推理路徑用作驗(yàn)證上下文,用于檢驗(yàn)輸出是否滿足問題中的某些要求。

2.3.2 評(píng)論員 LLM

HybGRAG:Hit@1 的平均相對(duì)提升率達(dá)到 51%的新思路-AI.x社區(qū)圖片

評(píng)論員旨在提供反饋以協(xié)助路由器優(yōu)化問題路由。為有效引導(dǎo)路由器,構(gòu)建易于理解的糾正性反饋。會(huì)指出每個(gè)動(dòng)作中的錯(cuò)誤,如實(shí)體的錯(cuò)誤識(shí)別(上表展示了識(shí)別錯(cuò)誤的分類)。

與可能因使用的 LLM 而導(dǎo)致不確定性或不一致的自然語言反饋不同,糾正性反饋為如何優(yōu)化問題路由提供了明確指引。此外,它借助上下文學(xué)習(xí)(ICL)提供精細(xì)的反饋。

3. 效果評(píng)估

3.1 HYB GRAG 在現(xiàn)實(shí)世界的 GRAG 基準(zhǔn)測(cè)試中的表現(xiàn)怎樣?

HybGRAG:Hit@1 的平均相對(duì)提升率達(dá)到 51%的新思路-AI.x社區(qū)圖片

如上表,HYB GRAG 在 STARK 的兩個(gè)數(shù)據(jù)集中均顯著優(yōu)于所有基準(zhǔn)方法。大多數(shù)基準(zhǔn)方法是為處理 ODQA 和 KBQA 而設(shè)計(jì)的,結(jié)果表明它們無法有效處理 HQA。

混合檢索模塊表現(xiàn)位居第二,表明能同時(shí)運(yùn)用文本和關(guān)系信息的協(xié)同檢索模塊的重要性。

HYB GRAG 的表現(xiàn)明顯優(yōu)于混合檢索模塊,意味著在首次迭代中提取的實(shí)體和關(guān)系常常有誤。

通過分別利用HYB GRAG檢索器庫和評(píng)論模塊應(yīng)對(duì)挑戰(zhàn) 1 和 2,HYB GRAG 的性能有了顯著提升。

3.2 消融研究:HYB GRAG 的所有設(shè)計(jì)選擇是否必要?

3.2.1 評(píng)論模塊

把 HYB GRAG 變體與沒有驗(yàn)證上下文的驗(yàn)證器、僅有五次示例的評(píng)論者的情況進(jìn)行對(duì)比。

HybGRAG:Hit@1 的平均相對(duì)提升率達(dá)到 51%的新思路-AI.x社區(qū)圖片

從上圖可以看出,在所有的設(shè)計(jì)選擇下,HYB GRAG 表現(xiàn)最佳,接近標(biāo)準(zhǔn)性能。 

3.2.2 自我反思

HybGRAG:Hit@1 的平均相對(duì)提升率達(dá)到 51%的新思路-AI.x社區(qū)圖片

從上圖可以看出,隨著更多的自我反思迭代,HYB GRAG 的性能進(jìn)一步提升。當(dāng)?shù)螖?shù)從 1 增加到 2 時(shí),性能顯著提高,其中第 1 次迭代未進(jìn)行自我反思。同時(shí)表明,幾次迭代就已足夠,因?yàn)殡S著迭代次數(shù)增多,改進(jìn)逐漸減小。 

3.3 可解釋性:HYB GRAG 如何依據(jù)反饋優(yōu)化其問題路由?

HybGRAG:Hit@1 的平均相對(duì)提升率達(dá)到 51%的新思路-AI.x社區(qū)圖片

上圖展示了 STARK-MAG 中檢索器庫的路由器與評(píng)論模塊相互作用的實(shí)例。

上圖左側(cè)的首輪迭代中,路由器誤將“電子電路中的光學(xué) TALU 實(shí)現(xiàn)”認(rèn)定為代表研究領(lǐng)域的主題實(shí)體(關(guān)系方面)。由于基于此實(shí)體提取的圖和基于“Netaji Subhash 工程學(xué)院”提取的圖無交集,評(píng)論模塊判定前一實(shí)體更可能是文本方面。于是,它向路由器反饋,路由器也相應(yīng)地進(jìn)行處理。HYBGRAG 的這種優(yōu)化路徑類似 CoT,具有可解釋性,方便用戶理解。

3.4 端到端評(píng)估

HybGRAG:Hit@1 的平均相對(duì)提升率達(dá)到 51%的新思路-AI.x社區(qū)圖片

上表中,HYB GRAG 在 CRAG 中的表現(xiàn)優(yōu)于所有基線。

? 具有單個(gè)檢索模塊的 RAG 無法應(yīng)對(duì)兩種類型的問題。

? 具有連接參考的 RAG 也會(huì)因長參考中的無關(guān)內(nèi)容而分心。

? 即便提供了相同的檢索庫,自反思基線仍難以優(yōu)化自身行動(dòng)。

? 由于 ReAct 依賴于 LLM 的思考能力并提供自然語言反饋,它往往缺少改進(jìn)行動(dòng)的明確指引。

? 沒有經(jīng)過微調(diào)的檢索評(píng)估器,Corrective RAG 無法有效識(shí)別參考的有用性。這體現(xiàn)了帶有糾正反饋的評(píng)論模塊的優(yōu)越性。

3.5 模型成本分析

HybGRAG:Hit@1 的平均相對(duì)提升率達(dá)到 51%的新思路-AI.x社區(qū)圖片

上面兩個(gè)表分別匯總了 STARK 和 CRAG 中 HYB GRAG 迭代各步驟的 API 調(diào)用次數(shù)和令牌消耗。

盡管大部分令牌消耗源于用于 ICL 的示例,但提示本身所需令牌極少。而且,由于 HYB GRAG 把聊天 LLM 當(dāng)作路由器,ICL 的示例僅需提供一次。

相較于 STARK 中的最先進(jìn)基線 AVATAR,其訓(xùn)練時(shí)至少需 500 次 API 調(diào)用,混合檢索模塊僅 2 次 API 調(diào)用,在 Hit@1 上就實(shí)現(xiàn)了 24%的相對(duì)提升,而 HYB GRAG 最多 14 次 API 調(diào)用就能達(dá)成 51%的提升,二者均無需訓(xùn)練。

本文轉(zhuǎn)載自 ??大語言模型論文跟蹤??,作者:HuggingAGI


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦