自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

HippoRAG如何從大腦獲取線索以改進(jìn)LLM檢索 原創(chuàng)

發(fā)布于 2024-7-4 20:25
瀏覽
0收藏

譯者 | 李睿

審校 | 重樓

知識(shí)存儲(chǔ)和檢索正在成為大型語(yǔ)言模型(LLM)應(yīng)用的重要組成部分。雖然檢索增強(qiáng)生成(RAG)在該領(lǐng)域取得了巨大進(jìn)步,但一些局限性仍然沒(méi)有克服。

HippoRAG如何從大腦獲取線索以改進(jìn)LLM檢索-AI.x社區(qū)

俄亥俄州立大學(xué)和斯坦福大學(xué)的研究團(tuán)隊(duì)推出了HippoRAG,這是一種創(chuàng)新性的檢索框架,其設(shè)計(jì)理念源于人類(lèi)長(zhǎng)期記憶系統(tǒng)中的海馬索引理論。

HippoRAG的引入使大型語(yǔ)言模型(LLM)應(yīng)用程序能夠更有效地集成動(dòng)態(tài)知識(shí),并更快、更準(zhǔn)確地檢索重要信息。HippoRAG在多跳(multi-hop)問(wèn)答等任務(wù)上表現(xiàn)出令人印象深刻的性能,對(duì)于需要對(duì)大型復(fù)雜知識(shí)圖進(jìn)行組裝和推理的LLM應(yīng)用程序非常有用。

LLM知識(shí)整合的挑戰(zhàn)

哺乳動(dòng)物的大腦可以儲(chǔ)存大量的知識(shí),并在不丟失以前經(jīng)驗(yàn)的情況下不斷整合新經(jīng)驗(yàn)。這種長(zhǎng)期記憶系統(tǒng)允許人類(lèi)不斷更新他們用于推理和決策的知識(shí)。

相比之下,LLM在預(yù)訓(xùn)練后的知識(shí)整合仍然很困難。雖然RAG已經(jīng)成為L(zhǎng)LM中長(zhǎng)期記憶的主流解決方案,但現(xiàn)有的方法在處理新文檔時(shí)往往采取單獨(dú)編碼的方式,這使得不同來(lái)源的知識(shí)難以有效集成。

許多應(yīng)用程序需要跨多個(gè)文檔進(jìn)行知識(shí)集成。例如,科學(xué)文獻(xiàn)綜述、法律案例簡(jiǎn)報(bào)和醫(yī)學(xué)診斷需要將不同來(lái)源中提到的事實(shí)和概念相互關(guān)聯(lián)。標(biāo)準(zhǔn)的多跳問(wèn)答也需要整合各種文檔的多個(gè)段落之間的信息。

為了完成這些任務(wù),當(dāng)前的RAG系統(tǒng)使用多個(gè)檢索和生成步驟來(lái)連接不同的段落。然而,即使執(zhí)行了多步RAG,對(duì)于許多知識(shí)集成場(chǎng)景來(lái)說(shuō),也往往是不夠的。

HippoRAG

HippoRAG如何從大腦獲取線索以改進(jìn)LLM檢索-AI.x社區(qū)

HippoRAG從大腦中的新皮層和海馬體之間的生物相互作用中獲得靈感,這種相互作用使強(qiáng)大的基于場(chǎng)景的、不斷更新的人類(lèi)大腦記憶成為可能。

根據(jù)科學(xué)研究,大腦皮層負(fù)責(zé)處理和存儲(chǔ)實(shí)際的記憶表征,而海馬體則擁有一組相互關(guān)聯(lián)的索引,這些索引指向新皮層中的記憶單元,并儲(chǔ)存它們之間的關(guān)聯(lián)性。這兩個(gè)關(guān)鍵組成部分共同協(xié)作,執(zhí)行“模式分離”和“模式完成”的功能,前者確保不同經(jīng)歷的表征具有獨(dú)特性,后者則讓從部分刺激中檢索完整記憶成為可能。

HippoRAG通過(guò)使用LLM將文檔語(yǔ)料庫(kù)轉(zhuǎn)換為充當(dāng)人工海馬索引的知識(shí)圖來(lái)模仿這種記憶模型。HippoRAG分為兩個(gè)階段,離線索引用于存儲(chǔ)信息,在線檢索用于將知識(shí)整合到用戶請(qǐng)求中。

離線索引階段類(lèi)似于大腦中的記憶編碼,使用指令調(diào)優(yōu)的LLM以知識(shí)圖三元組的形式從段落中提取重要特征。與傳統(tǒng)的RAG管道中使用的密集嵌入相比,這允許更細(xì)粒度的模式分離。

人工海馬索引是在檢索語(yǔ)料庫(kù)中得到的三元組的基礎(chǔ)上建立的開(kāi)放知識(shí)圖譜。為了連接這些組件,HippoRAG使用現(xiàn)成的密集編碼器進(jìn)行檢索,這些編碼器在知識(shí)圖中相似的名詞短語(yǔ)之間提供額外的邊緣,以幫助下游模式完成連接。編碼器有助于使系統(tǒng)更有彈性和靈活性,因?yàn)橄嗤闹R(shí)可以用稍微不同的方式表達(dá)。

在線檢索過(guò)程反映了大腦的記憶檢索過(guò)程。LLM從用戶查詢中提取顯著的命名實(shí)體,然后根據(jù)檢索編碼器確定的相似性將其鏈接到知識(shí)圖中的節(jié)點(diǎn)。然后,HippoRAG使用個(gè)性化PageRank算法,這是PageRank的一個(gè)版本,它使用一組用戶定義的源節(jié)點(diǎn)在圖中分布概率。這種約束使HippoRAG能夠?qū)⑵漭敵鱿拗茷榍耙徊街羞x擇的候選查詢節(jié)點(diǎn)集。然后將結(jié)果應(yīng)用于索引的段落,以選擇它們進(jìn)行檢索。

HippoRAG的實(shí)際應(yīng)用

研究人員在兩項(xiàng)具有挑戰(zhàn)性的多跳問(wèn)答基準(zhǔn)測(cè)試(MuSiQue和2WikiMultiHopQA)以及HotpotQA數(shù)據(jù)集上,對(duì)HippoRAG的檢索能力進(jìn)行了全面的評(píng)估。他們將其與幾種強(qiáng)大的檢索方法和最近的LLM增強(qiáng)基線進(jìn)行了比較。

評(píng)估結(jié)果表明, HippoRAG在單步檢索上優(yōu)于所有其他方法,包括那些基于LLM增強(qiáng)的基線模型。與多步驟檢索方法IRCoT相結(jié)合時(shí),HippoRAG在相同的數(shù)據(jù)集上提供高達(dá)20%的互補(bǔ)增益。

HippoRAG的一個(gè)主要優(yōu)點(diǎn)是它能夠在一個(gè)步驟中執(zhí)行多跳檢索。其在線檢索過(guò)程的成本與目前的迭代檢索方法(例如IRCoT)相比低10到30倍,快6到13倍,同時(shí)實(shí)現(xiàn)了相當(dāng)?shù)男阅堋?/p>

研究人員在報(bào)告中寫(xiě)道:“我們提出的神經(jīng)生物學(xué)原理方法雖然簡(jiǎn)單,但已經(jīng)顯示出克服標(biāo)準(zhǔn)RAG系統(tǒng)固有局限性的巨大潛力,同時(shí)保留了它們相對(duì)于參數(shù)記憶的優(yōu)勢(shì)。HippoRAG在路徑跟蹤多跳QA和路徑發(fā)現(xiàn)多跳QA方面的卓越表現(xiàn),以及其顯著的效率提升和持續(xù)更新的能力,使其成為了連接標(biāo)準(zhǔn)RAG方法和參數(shù)化記憶之間的強(qiáng)大中間框架,為L(zhǎng)LM中的長(zhǎng)期記憶問(wèn)題提供了令人信服的解決方案?!?/p>

研究人員承認(rèn),為了進(jìn)一步改進(jìn)HippoRAG,還需要克服一些局限性,例如對(duì)其組件進(jìn)行微調(diào),并進(jìn)一步驗(yàn)證其對(duì)更大知識(shí)圖譜的可擴(kuò)展性。然而,當(dāng)前的研究結(jié)果已經(jīng)證明了神經(jīng)生物學(xué)啟發(fā)的方法在推進(jìn)LLM知識(shí)整合方面的潛力,并使他們能夠?qū)Ψ墙Y(jié)構(gòu)化信息進(jìn)行更復(fù)雜的推理。

知識(shí)圖譜和LLM的結(jié)合是一個(gè)非常強(qiáng)大的工具,可以解鎖許多應(yīng)用程序。GNN-RAG是一種將圖神經(jīng)網(wǎng)絡(luò)(GNN)和知識(shí)圖與LLM相結(jié)合的創(chuàng)新方法,已被證明可以解決許多經(jīng)典RAG無(wú)法解決的復(fù)雜推理問(wèn)題。而將GNN引入HippoRAG可能是未來(lái)探索的一個(gè)有趣方向。

原文標(biāo)題:HippoRAG takes cues from the brain to improve LLM retrieval,作者:Ben Dickson

鏈接:https://bdtechtalks.com/2024/06/17/hipporag-llm-retrieval/

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2024-7-5 09:40:32修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦