自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

高效信息檢索新方法：LangChain中Retriever的多種高級(jí)策略原創(chuàng)

發(fā)布于 2024-11-25 09:21

瀏覽

0收藏

在當(dāng)今的信息時(shí)代，如何高效檢索信息變得至關(guān)重要，尤其是在面對(duì)海量數(shù)據(jù)時(shí)。LangChain作為一個(gè)強(qiáng)大的工具集，通過(guò)不同類型的Retriever為用戶提供高效的信息檢索解決方案。本文將為大家介紹在LangChain中如何運(yùn)用三種先進(jìn)的Retriever策略，包括向量存儲(chǔ)檢索器（Vector Store Retriever）、多查詢檢索器（MultiQueryRetriever）、以及上下文壓縮檢索器（Contextual Compression Retriever）。無(wú)論是快速獲取相關(guān)文檔，還是針對(duì)特定上下文的精準(zhǔn)信息提取，這些Retriever都能極大提升LLM（大型語(yǔ)言模型）的實(shí)用性和用戶體驗(yàn)。

01、向量存儲(chǔ)檢索器：高效檢索的核心技術(shù)

向量存儲(chǔ)檢索器是一種通過(guò)向量表示來(lái)實(shí)現(xiàn)文檔檢索的技術(shù)，它能夠?qū)⒉樵冝D(zhuǎn)換為向量，與文檔庫(kù)中的向量進(jìn)行比對(duì)，從而找到最相關(guān)的內(nèi)容。通過(guò)向量存儲(chǔ)的方式，Retriever可以非常高效地從大量文檔中找到符合查詢條件的內(nèi)容。

使用向量存儲(chǔ)作為Retriever

在LangChain中，創(chuàng)建向量存儲(chǔ)檢索器非常簡(jiǎn)單，以下是具體步驟：

數(shù)據(jù)加載：我們從CSV文件中加載客戶評(píng)論，并進(jìn)行文本分割。
創(chuàng)建向量存儲(chǔ)：使用向量化工具（如Pinecone）對(duì)文本進(jìn)行向量化。
創(chuàng)建Retriever：將向量存儲(chǔ)配置為Retriever，可以進(jìn)行相似度搜索或設(shè)置特定參數(shù)。

示例代碼：

from langchain_community.document_loaders import CSVLoader
from langchain_community.vectorstores import Pinecone
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

# 加載數(shù)據(jù)
loader = CSVLoader("customer_reviews.csv")
documents = loader.load()

# 文本分割
text_splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=50)
texts = text_splitter.split_documents(documents)

# 向量化
embeddings = OpenAIEmbeddings()
vectorstore = Pinecone.from_documents(texts, embeddings)

# 配置Retriever
retriever = vectorstore.as_retriever()

使用此Retriever可以方便地執(zhí)行查詢，比如想要了解“用戶對(duì)電池續(xù)航的評(píng)價(jià)”，代碼如下：

docs = retriever.invoke("What do customers think about the battery life?")

通過(guò)設(shè)置不同的檢索參數(shù)，比如相似度得分閾值或結(jié)果數(shù)量（top-k），可以進(jìn)一步優(yōu)化檢索效果。

02、多查詢檢索器：多視角的精準(zhǔn)檢索

多查詢檢索器（MultiQueryRetriever）是一種增強(qiáng)的向量數(shù)據(jù)庫(kù)檢索技術(shù)。通過(guò)自動(dòng)化的提示調(diào)整，結(jié)合大型語(yǔ)言模型（LLM）生成多種視角的查詢，可以覆蓋不同的查詢表達(dá)方式，從而獲得更全面的檢索結(jié)果。它適用于用戶輸入模糊或存在多種解讀可能的情況。

構(gòu)建多查詢檢索器的示例

以下代碼展示了如何使用多查詢檢索器來(lái)檢索“客戶在智能手機(jī)上最看重的特性”：

from langchain.retrievers.multi_query import MultiQueryRetriever
from langchain_openai import ChatOpenAI

# 創(chuàng)建查詢
question = "What features do customers value in smartphones?"
llm = ChatOpenAI(temperature=0)

# 初始化MultiQueryRetriever
retriever_from_llm = MultiQueryRetriever.from_llm(
    retriever=vectordb.as_retriever(), llm=llm
)
unique_docs = retriever_from_llm.invoke(question)

通過(guò)這種方法，多查詢檢索器生成了多個(gè)不同角度的查詢，以增加檢索的多樣性和相關(guān)性。這一策略尤其適用于復(fù)雜或多意圖的查詢，確保返回結(jié)果更全面。

自定義查詢提示

用戶還可以為多查詢檢索器自定義查詢提示，以更好地滿足特定應(yīng)用需求。例如，我們可以使用PromptTemplate創(chuàng)建自定義查詢模板：

from langchain.retrievers.multi_query import MultiQueryRetriever
from langchain_openai import ChatOpenAI

# 創(chuàng)建查詢
question = "What features do customers value in smartphones?"
llm = ChatOpenAI(temperature=0)

# 初始化MultiQueryRetriever
retriever_from_llm = MultiQueryRetriever.from_llm(
    retriever=vectordb.as_retriever(), llm=llm
)
unique_docs = retriever_from_llm.invoke(question)

通過(guò)這種方式，多查詢檢索器在滿足用戶的查詢需求的同時(shí)，還能根據(jù)不同的需求進(jìn)行自定義調(diào)整。

03、上下文壓縮檢索器：優(yōu)化信息的精確提取

在大型文檔中檢索有用信息時(shí)，常常會(huì)遇到冗長(zhǎng)且不相關(guān)的信息。上下文壓縮檢索器（Contextual Compression Retriever）能夠通過(guò)上下文壓縮技術(shù)，將檢索結(jié)果優(yōu)化為用戶真正需要的內(nèi)容，從而避免浪費(fèi)資源。

上下文壓縮的工作原理

上下文壓縮檢索器結(jié)合了基礎(chǔ)檢索器和文檔壓縮器，通過(guò)提取與查詢相關(guān)的內(nèi)容來(lái)壓縮檢索結(jié)果。具體步驟如下：

基礎(chǔ)檢索：先使用基礎(chǔ)的向量存儲(chǔ)檢索器進(jìn)行初步查詢。
壓縮檢索：結(jié)合大型語(yǔ)言模型進(jìn)一步提取與查詢最相關(guān)的信息，過(guò)濾掉無(wú)關(guān)部分。

以下是一個(gè)使用上下文壓縮檢索器的示例：

from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor
from langchain_openai import OpenAI

# 初始化LLM和壓縮器
llm = OpenAI(temperature=0)
compressor = LLMChainExtractor.from_llm(llm)

# 配置上下文壓縮檢索器
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor, base_retriever=retriever
)
compressed_docs = compression_retriever.invoke("What actions are being proposed to combat climate change?")

通過(guò)上下文壓縮檢索器，返回的內(nèi)容更加精確且切中要害。這一技術(shù)尤其適用于需要精準(zhǔn)回答的場(chǎng)景，如政策分析或新聞報(bào)道。

04、自定義檢索器：打造個(gè)性化的檢索工具

LangChain中還提供了靈活的接口，允許用戶根據(jù)自己的需求創(chuàng)建自定義檢索器。通過(guò)擴(kuò)展BaseRetriever類并實(shí)現(xiàn)核心方法，用戶可以定制符合自身應(yīng)用場(chǎng)景的檢索邏輯。以下是一個(gè)簡(jiǎn)單的示例，展示如何實(shí)現(xiàn)自定義檢索器：

from typing import List
from langchain_core.documents import Document
from langchain_core.retrievers import BaseRetriever

class CustomRetriever(BaseRetriever):
    """一個(gè)簡(jiǎn)單的檢索器，根據(jù)查詢返回包含關(guān)鍵字的文檔。"""

    documents: List[Document]
    k: int

    def _get_relevant_documents(self, query: str) -> List[Document]:
        matching_documents = [doc for doc in self.documents if query.lower() in doc.page_content.lower()]
        return matching_documents[:self.k]

# 示例
documents = [
    Document("Dogs are great companions.", {"type": "dog"}),
    Document("Cats are independent pets.", {"type": "cat"}),
]
retriever = CustomRetriever(documents=documents, k=1)
result = retriever.invoke("dog")
print(result[0].page_content)  # Output: "Dogs are great companions."

這種自定義檢索器可以應(yīng)用于特定場(chǎng)景，比如公司內(nèi)部資料或特定主題的文檔搜索，滿足多樣化的應(yīng)用需求。

05、結(jié)論：靈活高效的信息檢索

在LangChain框架中，Retriever是實(shí)現(xiàn)高效信息檢索的核心組件。通過(guò)學(xué)習(xí)和運(yùn)用不同的Retriever類型——向量存儲(chǔ)檢索器、多查詢檢索器和上下文壓縮檢索器，開(kāi)發(fā)者可以根據(jù)不同的應(yīng)用場(chǎng)景選擇合適的工具，優(yōu)化信息檢索的準(zhǔn)確性和效率。此外，LangChain還提供了靈活的自定義功能，使得開(kāi)發(fā)者能夠基于特定需求構(gòu)建個(gè)性化的檢索器。

掌握這些Retriever策略，可以幫助開(kāi)發(fā)者在LLM應(yīng)用中更好地管理大數(shù)據(jù)集，提升用戶體驗(yàn)，實(shí)現(xiàn)高效的知識(shí)訪問(wèn)和信息提取。無(wú)論是在客戶服務(wù)、教育還是金融等領(lǐng)域，這些技術(shù)都能為復(fù)雜應(yīng)用場(chǎng)景提供便捷、高效的信息解決方案。

參考：

??https://python.langchain.com/v0.1/docs/modules/data_connection/retrievers/??

本文轉(zhuǎn)載自公眾號(hào)Halo咯咯作者：基咯咯

原文鏈接：??https://mp.weixin.qq.com/s/FZXDe9oFXZUjigGtNTsf8Q??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

LangChain框架

已于2024-11-25 09:29:17修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

CVPR 2024滿分論文解讀：基于可變形三維高斯的高質(zhì)量單目動(dòng)態(tài)重建新方法

kcoufee ? 2713瀏覽 ? 0回復(fù)
檢索感知微調(diào)（RAFT），提升領(lǐng)域RAG效果的新方法

Syrupup ? 4207瀏覽 ? 0回復(fù)
無(wú)需訓(xùn)練，這個(gè)新方法實(shí)現(xiàn)了生成圖像尺寸、分辨率自由

輕薄滴假象 ? 2440瀏覽 ? 0回復(fù)
改變LoRA的初始化方式，北大新方法PiSSA顯著提升微調(diào)效果

輕薄滴假象 ? 2376瀏覽 ? 0回復(fù)
檢索感知微調(diào)（RAFT），提升領(lǐng)域RAG效果的新方法

Syrupup ? 2812瀏覽 ? 0回復(fù)
“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法

angel ? 4779瀏覽 ? 0回復(fù)
上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法

angel ? 2417瀏覽 ? 0回復(fù)
如何解決模型的災(zāi)難性遺忘問(wèn)題？清華大學(xué)提出新方法！

AI論文解讀 ? 4843瀏覽 ? 0回復(fù)
LLM 預(yù)訓(xùn)練加速的新方法：八種模型增長(zhǎng)方案總結(jié)

amei2000go ? 4347瀏覽 ? 0回復(fù)
上大、騰訊等提出3D服裝合成新方法：ClotheDreamer

angel ? 2950瀏覽 ? 0回復(fù)
解決大型多模態(tài)模型的幻覺(jué)問(wèn)題，新方法AITuning助力AI更可靠

AI論文解讀 ? 2665瀏覽 ? 0回復(fù)
破解AI多模態(tài)理解難題：浙江大學(xué)與字節(jié)跳動(dòng)聯(lián)手推出Molecule-Space新方法

AI論文解讀 ? 2601瀏覽 ? 0回復(fù)
RAG高級(jí)優(yōu)化：檢索策略探討Fusion, HyDE安排上(含代碼)

恰似驚鴻 ? 3775瀏覽 ? 0回復(fù)
Binary Block Masking：加快稀疏 Attention 的一種新方法

amei2000go ? 3890瀏覽 ? 0回復(fù)
時(shí)序預(yù)測(cè)數(shù)據(jù)處理新方法匯總：多粒度和頻域的可逆歸一化

海因斯DK ? 3941瀏覽 ? 0回復(fù)
一種實(shí)現(xiàn)符號(hào)鋼琴音樂(lè)聲音和譜表分離的GNN新方法

51CTO內(nèi)容精選 ? 1988瀏覽 ? 0回復(fù)
清華團(tuán)隊(duì)提出精確學(xué)習(xí)新方法，提升AI泛化能力

AI論文解讀 ? 2539瀏覽 ? 0回復(fù)
Salesforce 新方法讓RAG效果飆升

大語(yǔ)言模型論文跟蹤 ? 1989瀏覽 ? 0回復(fù)
微軟、清華發(fā)布Agent創(chuàng)新方法，解決記憶、檢索大難題

Aceryt ? 993瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

RAG與MCP：LLMs的“左右手”，誰(shuí)才是你的菜？ 20h前發(fā)布
Rime 開(kāi)源新工具！Arcana 和 Rimecaster 讓語(yǔ)音 AI 更懂“人話” 20h前發(fā)布

熱門(mén)推薦

2025年最值得關(guān)注的十大多模態(tài)大語(yǔ)言模型！ 0回復(fù)

GPT-4.1系列深度解析：從代碼到動(dòng)畫(huà)，從理論到實(shí)戰(zhàn)，AI的多面手來(lái)了！ 0回復(fù)

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實(shí)戰(zhàn)教程 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

上一篇： ChatGPT Search：AI搜索引擎如何挑戰(zhàn)Google霸主地位？

下一篇：微軟發(fā)布LLM2CLIP：一種新型AI技術(shù)，LLM成為CLIP視覺(jué)編碼器的“老師”

社區(qū)精華內(nèi)容

目錄