一文讀懂GraphRAG大模型知識(shí)圖譜 原創(chuàng) 精華
大模型知識(shí)圖譜是指將大型語(yǔ)言模型(LLM)與知識(shí)圖譜技術(shù)相結(jié)合的一種技術(shù)手段,旨在利用知識(shí)圖譜的結(jié)構(gòu)化知識(shí)來(lái)增強(qiáng)大模型在自然語(yǔ)言處理任務(wù)中的表現(xiàn)。知識(shí)圖譜通過(guò)將信息表示為實(shí)體(節(jié)點(diǎn))和關(guān)系(邊)的網(wǎng)絡(luò),模仿了人類結(jié)構(gòu)知識(shí)的組成方式,不僅能捕獲原始信息,還能捕獲跨越多個(gè)文檔的高階關(guān)系,并具備強(qiáng)大的推理能力。
GraphRAG是一種利用知識(shí)圖譜增強(qiáng)檢索增強(qiáng)生成的技術(shù)。它通過(guò)以下幾個(gè)步驟來(lái)提升大模型的性能:
- 創(chuàng)建領(lǐng)域圖譜和詞匯圖譜:領(lǐng)域圖譜用于表示與特定應(yīng)用領(lǐng)域相關(guān)的世界模型,而詞匯圖譜則用于表示文本的結(jié)構(gòu)和語(yǔ)義關(guān)系。
- 利用LLM從非結(jié)構(gòu)化數(shù)據(jù)中提取實(shí)體和關(guān)系:GraphRAG利用LLM的自然語(yǔ)言理解能力,從非結(jié)構(gòu)化數(shù)據(jù)中自動(dòng)提取實(shí)體、關(guān)系以及它們的屬性,并將其用于構(gòu)建知識(shí)圖譜。
- 將知識(shí)圖譜與向量索引結(jié)合,進(jìn)行更精準(zhǔn)的語(yǔ)義搜索:GraphRAG將知識(shí)圖譜中的結(jié)構(gòu)化信息與向量索引中的語(yǔ)義信息相結(jié)合,可以更精準(zhǔn)地理解用戶查詢背后的意圖,并檢索到更相關(guān)的文本片段。
- 利用圖遍歷和推理能力,提供更完整、上下文相關(guān)的答案:GraphRAG可以根據(jù)知識(shí)圖譜中的關(guān)系路徑進(jìn)行圖遍歷和推理,從而獲得更完整、上下文相關(guān)的答案,而不僅僅是簡(jiǎn)單地拼湊文本片段。
很多技術(shù)廠商都曾認(rèn)為,大語(yǔ)言模型的到來(lái)會(huì)給“知識(shí)圖譜”技術(shù)帶來(lái)“替代性”的威脅,畢竟二者都是服務(wù)于知識(shí),服務(wù)于文本。當(dāng)和一些做AI方面技術(shù)公司洽談項(xiàng)目時(shí),對(duì)方一聽到我們還在用“知識(shí)圖譜”這樣的技術(shù),竟無(wú)意間表現(xiàn)出一絲輕蔑。認(rèn)為AIGC時(shí)代,大模型可以做任何事,不再需要任何“過(guò)時(shí)”的AI技術(shù)了。
這種反應(yīng)并不奇怪,因?yàn)榇竽P驮诔霈F(xiàn)以來(lái),一直被宣傳得很“熱鬧”。人們?cè)跓崆榈尿?qū)動(dòng)下,總是容易高估新技術(shù)的能力。
有時(shí)候,客戶在不完全了解的情況下,也會(huì)如此。有了一些新需求,動(dòng)不動(dòng)就直接給建議,“這東西大模型應(yīng)該可以做,一點(diǎn)也不難,馬上部署一套吧”。
其實(shí),從本質(zhì)上來(lái)看,大模型和其他任何AI模型沒(méi)有任何值得區(qū)別對(duì)待的,所有的AI技術(shù)模型都是“平等”的關(guān)系。不同技術(shù)有不同的技術(shù)特點(diǎn),適用于不同的業(yè)務(wù)場(chǎng)景,“數(shù)字化轉(zhuǎn)型”也不會(huì)厚此薄彼。知識(shí)圖譜技術(shù)和大模型技術(shù)雖然都面向知識(shí)服務(wù),但是定位完全不同。
知識(shí)圖譜是用符號(hào)表示知識(shí),內(nèi)容嚴(yán)謹(jǐn)、結(jié)構(gòu)化強(qiáng),能夠?qū)?fù)雜的數(shù)據(jù)關(guān)聯(lián)進(jìn)行記錄,適合于推理類任務(wù)。
大模型是用向量表示知識(shí),語(yǔ)義信息豐富,支持高效檢索和各類數(shù)據(jù)格式的輸入和生成,適合交互類任務(wù)。
大模型技術(shù)能夠更好地理解用戶需求,幫助用戶完成數(shù)據(jù)分析結(jié)論的總結(jié)生成,但是這種“端到端”的技術(shù)策略,并不符合“透明化”的數(shù)據(jù)服務(wù)運(yùn)營(yíng)理念。僅依靠大模型本身獲得業(yè)務(wù)結(jié)論,對(duì)于用戶來(lái)說(shuō)風(fēng)險(xiǎn)太大了?!袄锩媸莻€(gè)黑盒,如果答案不是我想要的,我就不用了”。這也是大模型相關(guān)的技術(shù)產(chǎn)品為什么留存率低的問(wèn)題。
用戶對(duì)大模型的評(píng)價(jià)過(guò)于隨機(jī),換個(gè)場(chǎng)景,換個(gè)提問(wèn)方式,效果可能立刻就會(huì)大打折扣。模型即服務(wù),這是所有從事大模型技術(shù)創(chuàng)新者都希望實(shí)現(xiàn)的理念。希望交付的模型本身就可以直接拿來(lái)應(yīng)對(duì)各式各樣的問(wèn)題。
這種“大一統(tǒng)”的技術(shù)愿景,仍然任重道遠(yuǎn)。每個(gè)行業(yè),每個(gè)業(yè)務(wù)條線的底層運(yùn)行邏輯和專業(yè)性要求都不一樣。
我們需要為不同的業(yè)務(wù)需求各自搭建知識(shí)框架以及對(duì)應(yīng)的知識(shí)庫(kù),如果是知識(shí)圖譜這種用“明文”表示的結(jié)構(gòu),則更加利于管理和維護(hù),讓更多業(yè)務(wù)人員參與到知識(shí)管理與加工的數(shù)字化的進(jìn)程中。知識(shí)圖譜可以更好地對(duì)業(yè)務(wù)對(duì)象和業(yè)務(wù)過(guò)程進(jìn)行表示,整個(gè)業(yè)務(wù)推理的過(guò)程是“透明化”、“可控的”。
如果AI結(jié)果非預(yù)期,也可以通過(guò)知識(shí)圖譜的記錄以及查詢策略的修改,來(lái)有針對(duì)性地改進(jìn),這符合一個(gè)面向數(shù)據(jù)治理的完整PDCA閉環(huán)邏輯。
當(dāng)前主流的AI產(chǎn)業(yè)落地思想是:大模型與知識(shí)圖譜以及和其他傳統(tǒng)AI技術(shù)框架的關(guān)系,應(yīng)該是柔性協(xié)同的關(guān)系,而非完全替代的關(guān)系。
大模型負(fù)責(zé)從用戶側(cè)解析需求,對(duì)需求進(jìn)行分發(fā)和路由,在具體的AI處理節(jié)點(diǎn)上,還是移交給特定的Agent來(lái)處理:比如針對(duì)圖數(shù)據(jù)庫(kù)的查詢和推理,甚至基于傳統(tǒng)的回歸模型或決策樹的預(yù)測(cè)。
這樣做一方面充分利用了企業(yè)現(xiàn)有的知識(shí)和技術(shù)資源,同時(shí),也降低了大模型技術(shù)的構(gòu)建和應(yīng)用門檻(須認(rèn)識(shí)到,大模型本質(zhì)是個(gè)半成品,無(wú)法直接解決業(yè)務(wù)問(wèn)題)。
同時(shí),大模型也負(fù)責(zé)把來(lái)自各Agent的數(shù)據(jù)結(jié)論進(jìn)行重新編排和總結(jié)輸出。“分而治之”的思想永遠(yuǎn)是不過(guò)時(shí)的,一個(gè)復(fù)雜的任務(wù)得以分解成多個(gè)AI單元進(jìn)行操作,而大模型只需要完成它自身的技術(shù)使命。
微軟提出的GraphRAG項(xiàng)目備受關(guān)注。該項(xiàng)目的主要目的是通過(guò)改進(jìn)信息檢索和整理的方式,提升企業(yè)知識(shí)庫(kù)的實(shí)用性和響應(yīng)速度。
GraphRAG的核心理念在于提前整理和構(gòu)建知識(shí)圖譜,并將信息關(guān)聯(lián)起來(lái),以便于快速回答具體或宏觀的問(wèn)題。 傳統(tǒng)上,RAG(Retrieval-Augmented Answer Generation)方法在處理具體問(wèn)題時(shí)表現(xiàn)良好,能夠直接在知識(shí)庫(kù)中檢索出包含答案的段落,并進(jìn)行融合生成回答。然而,對(duì)于宏觀問(wèn)題,如團(tuán)隊(duì)成就調(diào)查,RAG的效率和準(zhǔn)確性則較差。這些問(wèn)題要求獲取散落在不同文檔中的信息,并整合為連貫的答案。
GraphRAG 的工作原理是從索引文檔中創(chuàng)建一個(gè)知識(shí)圖譜,這些文檔也被稱為非結(jié)構(gòu)化數(shù)據(jù),例如網(wǎng)頁(yè)。因此,當(dāng) GraphRAG 創(chuàng)建知識(shí)圖譜時(shí),它實(shí)際上是在創(chuàng)建一個(gè)“結(jié)構(gòu)化”的表示,表示各種“實(shí)體”(如人、地點(diǎn)、概念和事物)之間的關(guān)系,使得機(jī)器就更容易理解這些關(guān)系。
GraphRAG 方法使用 LLM 在兩個(gè)階段構(gòu)建基于圖譜的文本索引:首先從源文檔中推導(dǎo)出實(shí)體知識(shí)圖譜,基于實(shí)體群體間的相關(guān)程度,創(chuàng)建稱之為“社區(qū)”的一般主題(高層次)和更細(xì)化的主題(低層次);然后,LLM 會(huì)對(duì)社區(qū)中的每一個(gè)主題進(jìn)行總結(jié),形成一個(gè)“數(shù)據(jù)的分層摘要”。回答問(wèn)題時(shí),則使用每個(gè)社區(qū)摘要(Community summary)生成部分回應(yīng),之后將所有部分回應(yīng)再次總結(jié)為最終的用戶回應(yīng)。這樣,聊天機(jī)器人就能夠更多地基于知識(shí)(即社區(qū)摘要)來(lái)回答問(wèn)題,而不是依賴嵌入。
- 提取知識(shí)圖譜:首先從原始文本創(chuàng)建“知識(shí)圖譜”。知識(shí)圖譜就像一個(gè)相互連接的內(nèi)容實(shí)體網(wǎng)絡(luò),其中每個(gè)實(shí)體(或“節(jié)點(diǎn)”)都以有意義的方式與其他實(shí)體相連接。
- 建立社區(qū)層次結(jié)構(gòu):接下來(lái),它將這些相互關(guān)聯(lián)的內(nèi)容實(shí)體組織成“社區(qū)”,將這些社區(qū)視為相關(guān)概念的集群。
- 生成摘要:對(duì)于每個(gè)社區(qū),GraphRAG 都會(huì)生成摘要來(lái)概括要點(diǎn)。這有助于理解關(guān)鍵內(nèi)容,而不會(huì)迷失在細(xì)節(jié)中。
- 利用圖譜結(jié)構(gòu):當(dāng)您需要執(zhí)行涉及檢索和生成信息的任務(wù)時(shí),GraphRAG 會(huì)使用這種組織良好的圖譜結(jié)構(gòu)。
與 RAG 系統(tǒng)類似,整個(gè) GraphRAG 管道可以分為兩個(gè)核心功能組件:索引和查詢。索引過(guò)程使用 LLM 來(lái)提取節(jié)點(diǎn)(如實(shí)體)、邊(如關(guān)系)和協(xié)變量(如聲明)。然后,它使用社區(qū)檢測(cè)技術(shù)對(duì)整個(gè)知識(shí)圖譜進(jìn)行分區(qū),并使用 LLM 進(jìn)一步形成摘要。對(duì)于特定查詢,它可以匯總所有相關(guān)的社區(qū)摘要以生成全局答案。
GraphRAG的主要優(yōu)勢(shì)在于其能夠提供更準(zhǔn)確、上下文相關(guān)且全面的答案,尤其在處理復(fù)雜信息和大型數(shù)據(jù)集上的問(wèn)答和主題發(fā)現(xiàn)能力方面表現(xiàn)突出。與傳統(tǒng)的僅基于向量的RAG方法相比,GraphRAG能夠顯著提高AI在這些領(lǐng)域的性能。此外,GraphRAG在連接分散信息、增強(qiáng)上下文理解和減少錯(cuò)誤信息(幻覺(jué))方面也展現(xiàn)出了其獨(dú)特的優(yōu)勢(shì)。通過(guò)這種方式,GraphRAG不僅提升了大模型的可解釋性,還增強(qiáng)了其在特定領(lǐng)域的應(yīng)用能力。
GraphRAG通過(guò)構(gòu)建知識(shí)圖譜,將企業(yè)知識(shí)庫(kù)中的相關(guān)信息進(jìn)行分類和關(guān)聯(lián),形成層次結(jié)構(gòu)。這種結(jié)構(gòu)使得回答問(wèn)題時(shí),可以依據(jù)信息的相關(guān)性和層次性快速定位答案。同時(shí),GraphRAG還引入了社區(qū)挖掘算法,進(jìn)一步優(yōu)化信息關(guān)聯(lián)和聚合的過(guò)程。盡管GraphRAG具有顯著的潛力,但其實(shí)際應(yīng)用仍面臨挑戰(zhàn)。
首先是知識(shí)圖譜的構(gòu)建,這一過(guò)程需要大量的人工干預(yù)以去除噪聲和進(jìn)行校正。其次是計(jì)算資源的消耗,特別是在處理大型知識(shí)圖譜時(shí),計(jì)算復(fù)雜度較高。最后,新數(shù)據(jù)的加入需要頻繁更新知識(shí)圖譜,這可能要求從零開始構(gòu)建整個(gè)圖譜,帶來(lái)額外的計(jì)算負(fù)擔(dān)。
綜上所述,GraphRAG提供了一種將傳統(tǒng)RAG與現(xiàn)代知識(shí)圖譜相結(jié)合的新路徑,有望大幅提升企業(yè)知識(shí)庫(kù)的實(shí)用性和響應(yīng)效率。盡管面臨一些技術(shù)挑戰(zhàn),但該項(xiàng)目的潛力不容忽視。
本文轉(zhuǎn)載自公眾號(hào)數(shù)字化助推器 作者:天涯咫尺TGH
原文鏈接:??https://mp.weixin.qq.com/s/FxI8IhBa9RJNNhRuTuTXLg??
