自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

北郵港大聯(lián)手!LightRAG:圖結(jié)構(gòu)賦能的高效檢索增強(qiáng)生成新范式

人工智能
現(xiàn)有 RAG 系統(tǒng)在處理復(fù)雜查詢時力不從心。來自北京郵電大學(xué)和香港大學(xué)的團(tuán)隊(duì)提出 LightRAG,通過引入基于圖結(jié)構(gòu)的文本索引和雙層檢索范式,顯著提升 RAG 系統(tǒng)的性能。

現(xiàn)有 RAG 系統(tǒng)在處理復(fù)雜查詢時力不從心。一方面,它們依賴扁平的數(shù)據(jù)表示,無法有效捕捉實(shí)體間的復(fù)雜關(guān)系;另一方面,缺乏上下文感知能力,導(dǎo)致生成的回答碎片化,難以形成連貫的邏輯。例如,當(dāng)用戶詢問 “電動汽車的興起如何影響城市空氣質(zhì)量和公共交通基礎(chǔ)設(shè)施?”,傳統(tǒng) RAG 可能只是分別檢索相關(guān)信息,卻無法將這些內(nèi)容有機(jī)整合,給出全面且有邏輯的答案。

來自北京郵電大學(xué)和香港大學(xué)的團(tuán)隊(duì)提出 LightRAG,通過引入基于圖結(jié)構(gòu)的文本索引和雙層檢索范式,顯著提升 RAG 系統(tǒng)的性能。

項(xiàng)目地址:https://github.com/HKUDS/LightRAG

1、LightRAG

為了確保RAG系統(tǒng)的效率和效果,LightRAG主要關(guān)注以下三個方面:

  • 全面的信息檢索:索引函數(shù)圖片必須擅長提取全局信息,這對于提高模型回答查詢的能力至關(guān)重要。
  • 高效低成本的檢索:索引的數(shù)據(jù)結(jié)構(gòu)圖片必須支持快速且成本效益高的檢索操作,以便能夠有效地處理大量查詢。
  • 快速適應(yīng)數(shù)據(jù)變化:系統(tǒng)應(yīng)該有能力迅速調(diào)整其內(nèi)部結(jié)構(gòu)以包含新的信息,這保證了系統(tǒng)能夠在不斷變化的信息環(huán)境中保持最新和相關(guān)性。

基于上述目標(biāo),LightRAG通過引入圖結(jié)構(gòu)和雙層檢索范式來增強(qiáng)檢索增強(qiáng)生成,框架圖如下所示:

圖片

下面來看看LightRAG的核心模塊:

基于圖的文本索引

LightRAG 的第一個關(guān)鍵創(chuàng)新是基于圖的文本索引機(jī)制,主要包括圖增強(qiáng)實(shí)體與關(guān)系抽取和快速適應(yīng)增量知識庫:

1. 圖增強(qiáng)實(shí)體與關(guān)系抽取

LightRAG通過將文檔分割成更小、更易管理的部分來提升檢索系統(tǒng)的效率。這種方法允許快速定位和訪問相關(guān)信息而無需分析整個文檔。然后利用大語言模型(LLMs)識別并提取各種實(shí)體(如名稱、日期、地點(diǎn)和事件)及其之間的關(guān)系。這些信息用于創(chuàng)建一個全面的知識圖譜,它強(qiáng)調(diào)了跨所有文檔集合的連接和洞察。

具體實(shí)現(xiàn):

  • 實(shí)體和關(guān)系抽取:利用一個提示驅(qū)動的LLM從文本數(shù)據(jù)中識別出節(jié)點(diǎn)(實(shí)體)和邊(關(guān)系)。例如,給定句子 "心臟病學(xué)家評估癥狀以識別潛在的心臟問題",它可以提取“心臟病學(xué)家”和“心臟病”作為實(shí)體,以及兩者間的關(guān)系 "診斷"。
  • LLM配置文件生成:利用LLM為每個實(shí)體節(jié)點(diǎn)和關(guān)系邊生成鍵值對,其中鍵是便于檢索的單詞或短語,值是總結(jié)相關(guān)片段的文本段落,有助于后續(xù)文本生成。
  • 去重優(yōu)化圖操作:最后一步是對來自不同文本片段的相同實(shí)體和關(guān)系進(jìn)行合并,以減少圖操作的開銷,從而提高數(shù)據(jù)處理效率。

2. 快速適應(yīng)增量知識庫

當(dāng)有新的文檔加入時,LightRAG能夠通過增量更新算法高效地將其整合進(jìn)現(xiàn)有的知識圖譜中,而無需重新處理整個數(shù)據(jù)庫。新文檔經(jīng)過相同的圖基索引步驟后產(chǎn)生新的圖數(shù)據(jù),然后將其與原圖數(shù)據(jù)結(jié)合,即取節(jié)點(diǎn)集以及邊集的并集。這種方法保證了新舊信息的一致性,并減少了計(jì)算資源的消耗。

基于圖的文本索引,LightRAG獲得了兩個主要的優(yōu)勢:

  • 全面的信息理解:構(gòu)建的圖結(jié)構(gòu)允許從多跳子圖中提取全局信息,增強(qiáng)了LightRAG處理涉及多個文檔片段的復(fù)雜查詢的能力。
  • 增強(qiáng)的檢索性能:由圖衍生的關(guān)鍵字?jǐn)?shù)據(jù)結(jié)構(gòu)被優(yōu)化用于快速且精確的檢索,提供了一個比現(xiàn)有方法(如嵌入匹配或塊遍歷技術(shù))更為優(yōu)越的選擇。

雙層檢索范式

傳統(tǒng)的檢索增強(qiáng)型生成(RAG)系統(tǒng)通常依賴于將文檔分割成小塊(chunks),并通過向量嵌入的方式檢索與用戶查詢最相似的文本塊。然而,這種方法存在局限性:

  • 缺乏語義關(guān)聯(lián)性:無法有效捕捉實(shí)體之間的復(fù)雜關(guān)系。
  • 難以處理復(fù)雜查詢:對于涉及多個實(shí)體和關(guān)系的查詢,難以提供連貫的答案。

為了解決這些問題,LightRAG提出了雙層檢索范式,通過結(jié)合低層次和高層次的檢索策略,同時滿足對具體信息和抽象概念的需求。

  • 低層次檢索(Low-Level Retrieval)
    低層次檢索專注于檢索與用戶查詢相關(guān)的具體實(shí)體及其屬性或關(guān)系。其目標(biāo)是提供精確的信息,適用于以下類型的查詢:
    低層次檢索的優(yōu)勢在于能夠深入探索特定實(shí)體的細(xì)節(jié),但可能缺乏對全局信息的把握,因此需要與高層次檢索相結(jié)合。

     具體查詢:例如,“誰寫了《傲慢與偏見》?”這類查詢需要檢索特定的實(shí)體(如作者)及其相關(guān)屬性。

     檢索方式:通過知識圖譜中的節(jié)點(diǎn)(實(shí)體)和邊(關(guān)系)進(jìn)行精確匹配,提取與查詢直接相關(guān)的詳細(xì)信息。

  • 高層次檢索(High-Level Retrieval)
    高層次檢索則關(guān)注更廣泛的主題和概念,而不是具體的實(shí)體。它通過聚合多個相關(guān)實(shí)體和關(guān)系的信息,提供對更高層次概念和總結(jié)的理解。其目標(biāo)是:
    高層次檢索的優(yōu)勢在于能夠提供更廣泛的視角,但可能缺乏對具體細(xì)節(jié)的深入分析,因此需要與低層次檢索互補(bǔ)。

     處理抽象查詢:例如,“人工智能如何影響現(xiàn)代教育?”這類查詢需要從多個相關(guān)實(shí)體和關(guān)系中提取信息,以提供對主題的全面理解。

     檢索方式:通過知識圖譜中的全局關(guān)鍵詞和主題進(jìn)行檢索,提取與查詢相關(guān)的多個實(shí)體和關(guān)系的總結(jié)信息,而不是具體的細(xì)節(jié)。

雙層檢索的實(shí)現(xiàn)機(jī)制

為了實(shí)現(xiàn)雙層檢索,LightRAG采用了以下技術(shù)策略:

  • 查詢關(guān)鍵詞提?。簩τ诮o定的查詢q,算法首先會從中抽取本地查詢關(guān)鍵詞圖片和全局查詢關(guān)鍵詞圖片。本地關(guān)鍵詞通常是描述具體實(shí)體的術(shù)語,而全局關(guān)鍵詞則涵蓋了更廣泛的上下文。
  • 關(guān)鍵詞匹配:使用高效的向量數(shù)據(jù)庫來匹配本地查詢關(guān)鍵詞與候選實(shí)體,以及全局查詢關(guān)鍵詞與由全局關(guān)鍵詞鏈接的關(guān)系。這一步驟利用了預(yù)先構(gòu)建的知識圖譜中的結(jié)構(gòu)化信息,使得匹配過程更為準(zhǔn)確。
  • 融入高階相關(guān)性:為了增強(qiáng)查詢的高階相關(guān)性,LightRAG還會收集已檢索圖元素局部子圖內(nèi)的鄰近節(jié)點(diǎn)。這意味著不僅考慮直接匹配的結(jié)果,還包括與之緊密相連的一級鄰居節(jié)點(diǎn)和邊,從而擴(kuò)大了檢索范圍并增強(qiáng)了答案的深度和廣度。

通過上述機(jī)制,雙層檢索范式不僅實(shí)現(xiàn)了相關(guān)實(shí)體和關(guān)系的高效檢索,而且通過集成來自構(gòu)建的知識圖譜的相關(guān)結(jié)構(gòu)信息,大大提升了檢索結(jié)果的全面性和準(zhǔn)確性。這種方法確保了無論面對具體還是抽象的查詢,LightRAG都能有效地為用戶提供所需的信息。

檢索增強(qiáng)答案生成

在檢索到相關(guān)信息后,LightRAG 利用通用的 LLM 生成答案。它將檢索到的實(shí)體和關(guān)系的拼接值作為輸入,生成與用戶查詢一致的答案。這種方法不僅簡化了回答生成的過程,還保持了上下文和查詢的一致性。

2、實(shí)驗(yàn)結(jié)果

數(shù)據(jù)集

基于 UltraDomain 基準(zhǔn)測試集中的四個數(shù)據(jù)集,這些數(shù)據(jù)集來源于428本大學(xué)教科書,涵蓋了18個不同的領(lǐng)域,包括農(nóng)業(yè)、計(jì)算機(jī)科學(xué)(CS)、法律和混合內(nèi)容。每個數(shù)據(jù)集包含60萬到500萬個標(biāo)記。

評估

通過整合數(shù)據(jù)集文本、利用大語言模型生成問題:

將每個數(shù)據(jù)集所有文本整合為上下文,借助大語言模型生成 5 個虛擬用戶,每個用戶對應(yīng) 5 個任務(wù)。針對每個用戶任務(wù)組合,由大語言模型生成 5 個需理解整個語料庫的問題,每個數(shù)據(jù)集最終產(chǎn)生 125 個問題。

評估分為四個維度:

  • 完整性(Comprehensiveness):回答是否全面地解決了問題的所有方面和細(xì)節(jié)。
  • 多樣性(Diversity):回答是否提供了不同視角和見解,豐富多樣。
  • 賦能性(Empowerment):回答是否有效地幫助讀者理解話題并作出明智判斷。
  • 總體表現(xiàn)(Overall):綜合前三個維度的表現(xiàn),確定最佳的整體回答。

LightRAG與其他RAG方法的比較

  1. 圖增強(qiáng)RAG系統(tǒng)的優(yōu)越性:在處理大規(guī)模數(shù)據(jù)集和復(fù)雜查詢時,基于圖的RAG系統(tǒng)(如LightRAG和GraphRAG)顯著優(yōu)于基于文本塊的檢索方法(如Naive RAG、HyDE和RQ-RAG)。
  2. LightRAG在多樣性上的優(yōu)勢:LightRAG在“多樣性”指標(biāo)上表現(xiàn)出色,尤其是在法律數(shù)據(jù)集上。這歸功于其雙層檢索范式,能夠從低層次和高層次同時檢索信息,從而提供更豐富的回答。
  3. LightRAG優(yōu)于GraphRAG:在農(nóng)業(yè)、計(jì)算機(jī)科學(xué)和法律數(shù)據(jù)集上,LightRAG顯著優(yōu)于GraphRAG。LightRAG在處理復(fù)雜語言環(huán)境時表現(xiàn)出更強(qiáng)的全面信息理解能力。

圖片

雙層檢索和圖基索引的效果

  • 低層次檢索的影響:僅使用低層次檢索(去除高層次檢索)會導(dǎo)致性能顯著下降,尤其是在需要全面理解的復(fù)雜查詢上。低層次檢索更適合提供具體信息,但對于需要綜合多個實(shí)體和關(guān)系的查詢效果不佳。
  • 高層次檢索的影響:僅使用高層次檢索(去除低層次檢索)能夠提供更廣泛的信息,但在細(xì)節(jié)上不夠深入。高層次檢索更適合處理抽象查詢,但在具體信息的深度上有所欠缺。
  • 雙層檢索的綜合優(yōu)勢:結(jié)合低層次和高層次檢索的完整LightRAG模型在所有維度上表現(xiàn)最佳。
  • 基于圖的索引的有效性:即使不使用原始文本,僅依賴圖結(jié)構(gòu)進(jìn)行檢索,LightRAG的性能也沒有顯著下降。表明基于圖的索引能夠有效提取關(guān)鍵信息,減少噪聲。

圖片

案例分析

通過對不同場景的具體案例進(jìn)行分析,可以發(fā)現(xiàn)LightRAG在處理復(fù)雜查詢時具有明顯的優(yōu)勢。例如,在回答涉及多個領(lǐng)域交叉的問題時,LightRAG能夠更好地整合相關(guān)信息,給出更為全面的答案。

圖片

成本與適應(yīng)性

  • 檢索階段:GraphRAG需要處理約610,000個token,并且需要多次API調(diào)用。LightRAG僅需使用少于100個token進(jìn)行檢索,且僅需一次API調(diào)用。LightRAG在檢索效率上顯著優(yōu)于GraphRAG。
  • 增量更新階段:GraphRAG需要重新構(gòu)建整個社區(qū)結(jié)構(gòu),導(dǎo)致更新開銷約為1,399 × 2 × 5,000個token。LightRAG通過增量更新機(jī)制,僅需處理新數(shù)據(jù),顯著減少了更新開銷。LightRAG在處理動態(tài)數(shù)據(jù)更新時表現(xiàn)出更高的效率和成本效益。

圖片

3、總結(jié)

LightRAG 通過引入基于圖的文本索引和雙層檢索范式,在處理復(fù)雜查詢和生成高質(zhì)量答案方面展現(xiàn)了顯著優(yōu)勢,尤其在捕捉文本塊間聯(lián)系和綜合信息生成連貫回答方面表現(xiàn)出色。然而,實(shí)際應(yīng)用中暴露出運(yùn)行速度慢、回答精度不穩(wěn)定以及實(shí)驗(yàn)評估方式局限等問題。未來可從優(yōu)化運(yùn)行效率、改進(jìn)關(guān)鍵詞提取算法、引入語義匹配技術(shù)以及完善量化評估指標(biāo)等方面入手,進(jìn)一步提升 LightRAG 的性能和實(shí)用性,使其在自然語言處理領(lǐng)域發(fā)揮更大價值。

責(zé)任編輯:龐桂玉 來源: 小白學(xué)AI算法
相關(guān)推薦

2025-02-11 08:00:00

大語言模型檢索增強(qiáng)生成CAG

2025-01-23 16:23:30

2023-10-14 17:46:17

RAG提示工程GPT-3

2024-05-20 08:31:33

檢索增強(qiáng)生成LLM大型語言模型

2024-04-19 09:00:01

映射算法大型語言模型LLM

2024-10-31 14:46:31

2024-12-23 11:31:05

大模型檢索人工智能

2024-09-05 08:24:09

2025-04-29 08:20:51

2024-05-28 09:24:32

2025-04-09 09:00:00

2024-02-18 09:00:00

RAG工具LlamaIndexChatGPT

2023-09-11 09:00:00

檢索增強(qiáng)生成大數(shù)據(jù)模型自然語言處理

2025-04-01 09:25:09

2024-11-19 13:05:40

2023-10-27 10:23:35

大語言模型人工智能

2024-06-18 15:36:50

2024-10-16 13:27:27

2024-01-17 09:00:00

大型語言模型機(jī)器學(xué)習(xí)向量搜索引擎

2025-02-13 09:01:03

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號