微軟新綜述:大模型RAG系統(tǒng)的4層境界! 精華
今天分享這篇很干的文章!通過對RAG系統(tǒng)的用戶Query進行難度區(qū)分,進而可以將系統(tǒng)劃分為4個等級。
Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely
使用外部數(shù)據增強的大型語言模型 ( LLMs ) 在完成現(xiàn)實世界任務方面表現(xiàn)出了卓越的能力。外部數(shù)據不僅增強了模型的特定領域專業(yè)知識和時間相關性,而且還減少了幻覺的發(fā)生率,從而增強了輸出的可控性和可解釋性。將外部數(shù)據集成到LLMs中的技術,例如檢索增強生成(RAG)和微調,正在獲得越來越多的關注和廣泛應用。盡管如此,在各個專業(yè)領域有效部署數(shù)據增強LLMs仍面臨著巨大的挑戰(zhàn)。這些挑戰(zhàn)涵蓋了廣泛的問題,從檢索相關數(shù)據和準確解釋用戶意圖到充分利用LLMs的推理能力來完成復雜的任務。我們相信,對于數(shù)據增強LLM應用程序來說,沒有一種萬能的解決方案。在實踐中,效果不佳通常是由于未能正確識別任務的核心焦點,或者因為該任務本質上需要混合多種功能,必須將這些功能分解以獲得更好的解決方案。在本次調查中,我們提出了一種 RAG 任務分類方法,根據所需的外部數(shù)據類型和任務的主要關注點將用戶查詢分為四個級別:顯式事實查詢、隱式事實查詢、可解釋的基本原理查詢和隱藏的基本原理查詢。我們定義這些級別的查詢,提供相關數(shù)據集,并總結關鍵挑戰(zhàn)和應對這些挑戰(zhàn)的最有效技術。最后,我們討論了將外部數(shù)據集成到LLMs中的三種主要形式:上下文、小模型和微調,強調了它們各自的優(yōu)勢、局限性以及它們適合解決的問題類型。本文旨在幫助讀者深入理解和分解構建LLM應用程序的數(shù)據需求和關鍵瓶頸,為不同的挑戰(zhàn)提供解決方案,并作為系統(tǒng)開發(fā)此類應用程序的指南。
LLMs在各個專業(yè)領域較容易遇到一些問題,如模型幻覺、與特定領域知識的不一致等。所以整合特定領域的數(shù)據對于滿足特定行業(yè)需求是非常重要的。通過RAG和微調等技術,基于RAG的LLM應用在多個方面顯示出比僅基于通用LLM的應用的優(yōu)勢。
通常,基于RAG的LLM應用可以表述為一個映射過程,即基于給定數(shù)據D,將用戶輸入(查詢Q)映射到預期響應(答案A)。
根據與外部數(shù)據D的交互程度和所需的認知處理水平,我們可以將查詢分為不同層次。
- 顯式事實查詢 (Level-1 Explicit Facts), 最簡單的數(shù)據增強查詢形式,示例:
- "2024年夏季奧運會將在哪里舉行?"(給定一系列關于奧運會的文檔)
- "公司X的AI戰(zhàn)略是什么?"(給定關于公司X的最新新聞和文章系列)
- 隱式事實查詢 (Level-2 Implicit Facts),涉及需要一些常識推理或基本邏輯推理的查詢,示例:
- "樣本大小大于1000的實驗有多少個?"(給定一系列實驗記錄)
- "最常提及的前3個癥狀是什么?"(給定一系列醫(yī)療記錄)
- "公司X和公司Y的AI戰(zhàn)略有什么區(qū)別?"(給定關于公司X和Y的最新新聞和文章系列)
- 解釋性理由查詢 (Level-3 Interpretable Rationales),不僅需要掌握事實內容,還要能夠理解領域數(shù)據,示例:
- "根據胸痛管理指南,應該如何診斷和治療有特定癥狀描述的胸痛患者?"
- "在現(xiàn)實場景中應如何回應用戶的問題?"(給定客戶服務工作流程)
- 隱藏理由查詢 (Level-4 Hidden Rationales),最具挑戰(zhàn)性的查詢類型,需要從外部數(shù)據中推斷出未明確記錄的推理規(guī)則。
- "經濟形勢將如何影響公司未來的發(fā)展?"(給定一系列財務報告,需要經濟和財務理由)
- "使用數(shù)字5、5、5和1如何得到24點?"(給定一系列24點游戲的示例和相應答案)
- "阿富汗是否允許父母將其國籍傳給在國外出生的孩子?"(給定GLOBALCIT公民法數(shù)據集)
上述文字對應了下圖
L1 顯式事實查詢
挑戰(zhàn):
- 外部數(shù)據通常是高度非結構化的,并且包含多模態(tài)組件,如表格、圖像、視頻等。此外,將這些數(shù)據分割或“塊化”處理時,保持原始上下文和意義是一個挑戰(zhàn)。
- 數(shù)據檢索困難:從大型非結構化數(shù)據集中檢索相關數(shù)據段可能計算密集且容易出錯。
- 評估困難:評估RAG系統(tǒng)(特別是組件級別)的性能是一項復雜任務,需要開發(fā)能夠準確評估數(shù)據檢索和響應生成質量的健壯指標。
解決方案:(介紹了非常多的高級RAG技巧)
- 多模態(tài)文檔解析 (表格轉文本、圖片/視頻內容轉換成文本)
- 塊大小優(yōu)化:固定大小、文檔結構遞歸切分、滑動窗口、基于語義
- 索引:bm25、香蓮、hybird
- query、doc 文檔對齊:傳統(tǒng)對齊,hyde文檔域對齊,query域對齊
- rerank修正:rerank
- 遞歸檢索,迭代解鎖:通過多次檢索來逐步解決查詢中的不明確問題。
- 生成:確定檢索到的信息是否足夠,或者是否需要額外的外部數(shù)據;處理檢索到的知識與模型內部先驗知識之間的沖突。
- 微調:通過設計訓練數(shù)據來提高RAG系統(tǒng)在生成響應時的性能。
- 聯(lián)合訓練:在訓練階段同時訓練檢索器和生成器,以提高兩者在RAG系統(tǒng)中的協(xié)同性能。
L2 隱式事實查詢
挑戰(zhàn):
- 自適應:不同問題可能需要不同數(shù)量的檢索上下文。固定數(shù)量的檢索可能導致信息噪聲過多或信息不足。
- 推理檢索間的協(xié)調:推理可以指導需要檢索的內容,而檢索到的信息又可以迭代地細化推理策略。
解決方案:
- 迭代RAG:通過多步驟RAG過程動態(tài)控制,迭代地收集或糾正信息,直到達到正確答案。
- 基于圖/樹的RAG:使用圖或樹結構來自然地表達文本之間的關系,適合處理需要綜合多參考信息的查詢。
- NL2SQL:當處理結構化數(shù)據時,將自然語言查詢轉換為SQL查詢可以有效地檢索信息。
剩下2種不做更多介紹了,有點扯遠了,一張圖表示如下:
本文轉載自 ??探索AGI??,作者: 獼猴桃
