自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

如何選擇Embedding Model？關(guān)于嵌入模型的十個思考

原創(chuàng) 精選

作者：曹洪偉 2025-05-06 08:51:37

稀疏嵌入使用的是傳統(tǒng)的技術(shù)，如TF-IDF或bm25，這些方法會產(chǎn)生非常高維度但是大部分都是零的向量。盡管看起來有點浪費空間，但在精確的關(guān)鍵字檢索系統(tǒng)中卻很有效，比如搜索引擎和傳統(tǒng)文獻(xiàn)檢索。

在大模型應(yīng)用中，尤其基于RAG框架的大模型應(yīng)用，嵌入模型（embedding Model）是不可或缺的關(guān)鍵組件。這里總結(jié)了筆者在實踐中關(guān)于潛入模型的10個思考，希望對大家有所幫助。

1. 嵌入模型在RAG中的重要性

嵌入模型能夠?qū)⑽谋巨D(zhuǎn)換成數(shù)值形式的向量，這讓計算機(jī)可以更高效地處理、對比和檢索信息。這些向量能夠捕捉單詞、短語甚至是整篇文檔之間的意義聯(lián)系，這使得嵌入模型成為了各種自然語言處理任務(wù)中的關(guān)鍵工具。

在檢索增強(qiáng)生成（RAG）系統(tǒng)中，嵌入模型扮演著核心角色，它負(fù)責(zé)從知識庫中找出并排序與用戶查詢最相關(guān)的信息。當(dāng)用戶提出問題時，嵌入模型通過比較文本向量來尋找最匹配的文檔。選擇合適的嵌入模型對于確保檢索結(jié)果既準(zhǔn)確又有意義至關(guān)重要，這樣最終生成的回答也會更加精準(zhǔn)和有用。

舉個例子，在法律領(lǐng)域的RAG系統(tǒng)中，如果使用了專門針對法律術(shù)語訓(xùn)練的嵌入模型，那么系統(tǒng)就能更好地找到與查詢相關(guān)的法律文件，并保證引用的判例法資料既準(zhǔn)確又貼切上下文。這種精確性對于需要高度專業(yè)性和準(zhǔn)確性的工作場景來說尤為重要，比如法律研究或醫(yī)療文獻(xiàn)分析等。通過這種方式，嵌入模型不僅提升了信息檢索的質(zhì)量，還增強(qiáng)了整個系統(tǒng)的實用性。

2. 嵌入模型結(jié)構(gòu)中對上下文的處理方式

上下文窗口指的是嵌入模型一次性能夠處理的最大文本量，即它可以考慮的單詞或子單詞的數(shù)量。這個參數(shù)影響著模型在生成文本表示時能涵蓋多少內(nèi)容。

較大的上下文窗口意味著模型可以處理更長的段落而不用擔(dān)心信息被截斷。這對于需要理解長篇文檔的任務(wù)非常重要，比如分析研究論文、法律文件或是學(xué)術(shù)成績單。

舉個例子，在進(jìn)行語義搜索時，如果模型的上下文窗口較小，它可能會錯過文檔后面部分的重要信息。相反，擁有較大上下文窗口的模型則能夠捕捉到整個文檔中的廣泛含義，從而提供更加準(zhǔn)確的搜索結(jié)果。

實際上，不同的模型支持不同的上下文長度。一些較老的模型可能僅限于處理512個標(biāo)記，但更新的模型已經(jīng)能夠處理數(shù)千個標(biāo)記了，這使得它們非常適合處理復(fù)雜任務(wù)，如總結(jié)長篇文章或從詳細(xì)的文檔中提取信息。

基于Transformer的嵌入模型（如BERT）與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)（RNNs）不同，并不具備內(nèi)在的順序感知能力。為了彌補這一點，這些模型使用位置嵌入來記錄每個詞的位置信息：

絕對位置嵌入：直接為序列中的每個標(biāo)記賦予一個特定的位置值（例如，BERT采用正弦函數(shù)來實現(xiàn)這一目標(biāo)），這樣模型就能了解每個詞在句子中的具體位置。
相對位置嵌入：不是關(guān)注詞語的具體位置，而是關(guān)注詞語之間的相對距離（例如，T5模型采用了這種方法）。這種方法有助于更好地理解詞語間的相互關(guān)系，而不是單純依賴于它們出現(xiàn)的順序。

這種對詞序的精確捕捉對于處理長文本尤其重要，因為它確保了即使是文檔中相隔較遠(yuǎn)的詞也能被正確地理解和關(guān)聯(lián)起來，這對于提高文本檢索和文檔排序的準(zhǔn)確性至關(guān)重要。通過這種方式，模型不僅能夠理解單個詞語的意義，還能把握整個文檔的結(jié)構(gòu)和邏輯。

3. Tokenization機(jī)制對嵌入模型的影響

Tokenization是指將文本切分成較小單元的過程，這些單元被稱為標(biāo)記，可以是單個單詞、單詞的一部分甚至是單個字符。這是嵌入模型處理文本前的一個重要預(yù)處理步驟，因為它直接關(guān)系到文本如何被轉(zhuǎn)換成數(shù)值形式。

不同的Tokenization方法對嵌入模型處理各種文本的效果有很大影響：

單詞級Tokenization：這種方法把每個單詞視為一個單獨的標(biāo)記。然而，它在處理新造詞或罕見詞匯時會遇到困難，因為這些詞可能不在模型已知的詞匯表中。
子詞Tokenization（如Byte-Pair Encoding或WordPiece）：這種技術(shù)會將單詞分解成更小的部分或者子詞。例如，“unhappiness”可能會被拆分成“un”、“happi”和“ness”。這種方式讓模型能夠更好地應(yīng)對詞匯表之外的單詞，因此在現(xiàn)代模型中非常流行。它巧妙地平衡了詞匯表大小與靈活性，使得模型能處理從日常用語到專業(yè)術(shù)語在內(nèi)的廣泛詞匯，而不會使詞匯表變得過大。
字符級Tokenization：這里每個字符都被當(dāng)作一個單獨的標(biāo)記。這種方法對于那些形態(tài)復(fù)雜但可以通過較少字符表達(dá)的語言特別有用，盡管這樣做會使序列變得更長。

選擇合適的Tokenization方法對于嵌入模型能否有效地處理特定領(lǐng)域的語言、專業(yè)術(shù)語或多語言文本至關(guān)重要。比如，在醫(yī)療保健領(lǐng)域應(yīng)用中，使用子詞級別的Tokenization方法就顯得尤為重要，這樣可以確保模型準(zhǔn)確理解和處理像“心肌梗死”這樣的專業(yè)術(shù)語。正確選擇標(biāo)記化策略有助于提高模型性能，使其更適合特定的應(yīng)用場景。

4. 嵌入模型維數(shù)對性能影響

維數(shù)指的是模型為每個嵌入生成的數(shù)值數(shù)量，它決定了這些向量能包含多少信息。

低維嵌入（比如128或256維）計算效率高，處理速度快，但可能在表達(dá)語義上不如高維嵌入那樣細(xì)膩，這可能會在某些任務(wù)中影響準(zhǔn)確性。適合那些對速度和效率要求較高的場景。
高維嵌入（如768或1024維）能夠捕捉更加微妙的語義關(guān)系，提供更強(qiáng)大的表達(dá)能力。然而，它們需要更多的計算資源和內(nèi)存支持，這意味著更高的成本和較慢的處理速度。高維嵌入可以更精細(xì)地表達(dá)文本的意義，但在資源有限的情況下使用會面臨挑戰(zhàn)。

對于超過1024維這樣的極高維度嵌入，雖然提供了非常豐富的語義表示，但也帶來了一些問題：

增加的計算成本：存儲和處理這些高維向量需要更多的內(nèi)存和更強(qiáng)的計算能力。
維數(shù)災(zāi)難：隨著維度的增加，在高維空間中比較相似性變得困難，因為距離間的差異難以區(qū)分。
較慢的檢索時間：如果不進(jìn)行優(yōu)化，搜索大型嵌入數(shù)據(jù)庫將變得相當(dāng)耗時。

為了應(yīng)對這些問題，有幾種緩解策略：

使用降維技術(shù)，例如PCA（主成分分析）或t-SNE，可以在保留關(guān)鍵信息的同時減少計算負(fù)擔(dān)。
采用高效的矢量搜索技術(shù)，像FAISS（Facebook AI最近鄰搜索）或HNSW（分級導(dǎo)航小世界），可以顯著加快檢索速度。

選擇合適的維數(shù)取決于具體的應(yīng)用需求。對于實時應(yīng)用，如聊天機(jī)器人或語音助手，低維嵌入通常是更好的選擇，因為這類場景更看重速度和效率。而對于文檔相似性分析等需要高度精確的任務(wù)，更高維度的嵌入則更為合適，因為它能確保對復(fù)雜文本內(nèi)容的更精準(zhǔn)描述。這樣，通過權(quán)衡不同維度帶來的利弊，可以根據(jù)實際需求找到最合適的解決方案。

5. 詞匯量大小對嵌入模型的影響

嵌入模型的詞匯表大小決定了它能識別和處理的獨特單詞或標(biāo)記的數(shù)量。一個更大的詞匯表可以提升模型的準(zhǔn)確性，因為它能理解更廣泛的單詞，包括特定領(lǐng)域的術(shù)語和多種語言表達(dá)。但是，這也意味著需要更多的內(nèi)存和計算資源。

大詞匯表的優(yōu)勢：擁有較大的詞匯表讓模型能夠更好地理解和表示各種各樣的單詞，尤其是那些領(lǐng)域特有的術(shù)語或是來自不同語言的詞匯。這對于像科學(xué)研究或多語言文獻(xiàn)檢索這樣的應(yīng)用場景尤為重要，因為它們經(jīng)常需要處理大量的專業(yè)術(shù)語或跨語言信息。
小詞匯表的情況：如果詞匯表較小，則可以減少所需的內(nèi)存并加快處理速度。然而，這可能導(dǎo)致模型在遇到不常見的單詞或者特定領(lǐng)域的術(shù)語時表現(xiàn)不佳。

舉個例子，在生物醫(yī)學(xué)領(lǐng)域的自然語言處理模型中，為了精確地理解和使用醫(yī)學(xué)術(shù)語，一個較大的詞匯表是必不可少的。另一方面，對于客戶服務(wù)聊天機(jī)器人來說，由于它們主要處理的是日常對話中的常見問題，因此一個小一些的詞匯表就足夠了，并且還能保證響應(yīng)的速度和效率。

總結(jié)來說，當(dāng)你的應(yīng)用涉及到廣泛的主題、多種語言或者是包含大量專業(yè)術(shù)語的內(nèi)容時，選擇一個較大的詞匯表會更有利。但要注意的是，這樣做也會增加對內(nèi)存的需求，這在資源有限的情況下可能成為一個挑戰(zhàn)。因此，在選擇模型時，你需要根據(jù)具體的使用場景來平衡詞匯表大小與資源限制之間的關(guān)系。

6. 訓(xùn)練數(shù)據(jù)對嵌入模型的影響

開發(fā)嵌入模型時所用的訓(xùn)練數(shù)據(jù)對其性能有著重大影響，因為這決定了模型能理解什么樣的語言和知識范疇。

如果一個模型是基于廣泛的一般性互聯(lián)網(wǎng)資料（比如維基百科、新聞文章）進(jìn)行訓(xùn)練的，它在日常對話中可能會表現(xiàn)得不錯，但在金融、法律或醫(yī)學(xué)這樣的專業(yè)領(lǐng)域可能就力不從心了。相反，如果模型是在特定領(lǐng)域的數(shù)據(jù)集上訓(xùn)練的，例如針對醫(yī)療保健應(yīng)用的醫(yī)學(xué)期刊，那么它在這個特定領(lǐng)域內(nèi)的表現(xiàn)就會更加出色。

訓(xùn)練數(shù)據(jù)的質(zhì)量與多樣性對于模型的表現(xiàn)至關(guān)重要。高質(zhì)量且多樣化的訓(xùn)練數(shù)據(jù)能夠顯著提升模型的知識水平和處理能力。

對特定領(lǐng)域數(shù)據(jù)進(jìn)行微調(diào)可以增強(qiáng)嵌入模型的專業(yè)術(shù)語理解和語境細(xì)微差別的把握。這樣做帶來的好處包括：

提高檢索精度：模型能更準(zhǔn)確地找到符合查詢意圖的文檔。
更好地掌握術(shù)語：學(xué)習(xí)并理解那些在通用模型中未被充分表示的領(lǐng)域特定術(shù)語。
減少偏見：通過微調(diào)可以減少通用模型中存在的各種偏見問題。

舉例來說，一個法律文獻(xiàn)檢索系統(tǒng)通過使用經(jīng)過法律文本微調(diào)的模型，可以從法律判例法和法規(guī)中受益，確保搜索結(jié)果與法律相關(guān)，而非泛泛的一般信息。

因此，在選擇嵌入模型時，必須考量其訓(xùn)練數(shù)據(jù)是否與預(yù)期的應(yīng)用場景相匹配。比如，構(gòu)建法律文獻(xiàn)檢索系統(tǒng)的團(tuán)隊?wèi)?yīng)該選用那些已經(jīng)接受過法律案例和法規(guī)訓(xùn)練的模型，以保證搜索結(jié)果的精準(zhǔn)度和適用性。這樣不僅能提高工作效率，還能確保內(nèi)容的相關(guān)性和準(zhǔn)確性。

圖片

7. 嵌入模型的成本與部署方式選擇

在挑選嵌入模型時，有幾個成本因素需要考慮：

基礎(chǔ)設(shè)施成本：運行嵌入模型需要一定的計算資源支持，比如GPU或是云服務(wù)器，這方面的花費取決于你選擇的硬件配置和使用時間。
API成本：一些商業(yè)模型，例如OpenAI和Cohere提供的服務(wù)，會根據(jù)處理的Token數(shù)量收費。這意味著隨著使用量的增加，費用也會相應(yīng)上升。
存儲和內(nèi)存成本。高維度的大型嵌入模型需要更多的存儲空間和內(nèi)存來運行，這對資源的要求更高，自然也增加了成本。
推理成本。當(dāng)你在一個大規(guī)模的數(shù)據(jù)集上進(jìn)行推斷操作時，尤其是當(dāng)嵌入需要頻繁更新的情況下，這個過程可能會相當(dāng)昂貴。

舉個例子，如果是一家正在構(gòu)建搜索引擎的初創(chuàng)公司，他們可能會傾向于選擇開源的嵌用模型以減少API成本。相反，那些擁有豐富計算資源的大企業(yè)，則可能更愿意選擇性能優(yōu)越但價格不菲的專有模型，因為他們追求的是最高的準(zhǔn)確性和效率，而不太在意成本問題。

其中，基于API的模型使用起來非常方便快捷，但長期來看，特別是對于需要大量使用的應(yīng)用程序來說，成本可能會變得非常高。另一方面，開源模型雖然更加經(jīng)濟(jì)實惠，但是要求用戶具備更高的技術(shù)知識，并且需要自行搭建和維護(hù)相關(guān)的基礎(chǔ)設(shè)施。這樣看來，選擇哪種模型不僅要考慮預(yù)算限制，還要結(jié)合自身的技術(shù)能力和實際需求來決定。

8. 嵌入模型的性能評估指標(biāo)

嵌入模型的好壞通過多種基準(zhǔn)和測試方法來評估：

首先是MTEB：這是一個非常流行的評估框架，用于測試嵌入模型在不同自然語言處理任務(wù)上的表現(xiàn)，如語義搜索、分類和聚類。得分越高，通常意味著模型在這些任務(wù)中的表現(xiàn)越出色。
內(nèi)在評估：這種方法通過類似單詞相似性這樣的任務(wù)來檢測嵌入能否準(zhǔn)確捕捉詞語的意義。
外部評估：側(cè)重于考察嵌入模型在實際應(yīng)用中的表現(xiàn)，比如搜索排名、推薦系統(tǒng)和問答任務(wù)等下游應(yīng)用場景的實際效果。
自定義測試：即在自己的數(shù)據(jù)集上運行測試以確保它能滿足特定需求。例如，一個專注于法律文獻(xiàn)檢索的律師事務(wù)所需要評估模型根據(jù)判例法準(zhǔn)確檢索信息的能力；而一家優(yōu)化產(chǎn)品推薦的電商公司，則更關(guān)心嵌入模型如何影響客戶參與度。

另外，余弦距離是一種衡量兩個向量間相似性的指標(biāo)，通過計算兩個向量夾角的余弦值來確定它們之間的相似程度。在嵌入模型中，這個指標(biāo)用來判斷兩段文本在語義上是否相近。余弦距離的范圍從-1到1，具體含義如下：

1表示兩個向量方向一致，意味著高度相似；
0表示兩個向量相互垂直，意味著沒有相似性；
-1則表示兩個向量方向完全相反。

在語義搜索和RAG系統(tǒng)的文獻(xiàn)檢索功能中，余弦距離被廣泛應(yīng)用，用來根據(jù)文檔與查詢間的接近程度對相關(guān)文檔進(jìn)行排序。這樣一來，就能有效地找到與查詢最相關(guān)的文檔。

9. 不同嵌入類型的適用場景

靜態(tài)嵌入就像是給每個單詞都貼上了一個固定的標(biāo)簽，不管這個單詞在不同的句子或段落里是怎么用的。比如Word2Vec、GloVe和FastText這些工具就是這么做的。這種方法雖然能顯示出詞語間的關(guān)系，但不能識別同一個詞在不同場合下的不同意思，像“銀行”這個詞，在指河邊的“河岸”時和作為金融機(jī)構(gòu)的“銀行”時的意思就被混為一談了。

而上下文詞嵌入則更聰明一些，像是BERT、RoBERTa和Sentence Transformers這樣的工具，它們會根據(jù)單詞周圍的文字來動態(tài)生成表示，這就讓它們能夠理解一個詞在不同場景中的多種含義。這使得這類模型在執(zhí)行RAG檢索、語義搜索和文本摘要等任務(wù)時表現(xiàn)得更加出色。

稠密嵌入是通過像BERT、SBERT和GPT這樣的模型生成的，它們把每個詞轉(zhuǎn)化為緊湊且固定長度的小向量（比如說768或者1024維）。這種表示方法非常擅長捕捉詞語間的語義聯(lián)系，適用于需要深入理解文本意義的任務(wù)，如語義搜索和在RAG中進(jìn)行相似度排序。

相比之下，稀疏嵌入使用的是傳統(tǒng)的技術(shù)，如TF-IDF或bm25，這些方法會產(chǎn)生非常高維度但是大部分都是零的向量。盡管看起來有點浪費空間，但在精確的關(guān)鍵字檢索系統(tǒng)中卻很有效，比如搜索引擎和傳統(tǒng)文獻(xiàn)檢索。

現(xiàn)在的一些先進(jìn)的RAG流程還會結(jié)合稠密和稀疏嵌入的優(yōu)點，形成所謂的混合搜索方式，這樣不僅能保證找到的內(nèi)容與關(guān)鍵詞匹配，還能確保內(nèi)容之間有更深的語義關(guān)聯(lián)，從而提升整體的檢索準(zhǔn)確性。

10. 嵌入模型程度選型與RAG實踐

在選擇嵌入模型時，我們需要考慮幾個關(guān)鍵因素。首先得看它能否處理文檔的長度，這就涉及到上下文窗口大??；然后是每個令牌的成本，這關(guān)系到使用費用的問題；接著要考慮的是模型的質(zhì)量如何，比如通過MTEB得分或基準(zhǔn)性能來評估；還要平衡語義豐富度和計算效率，即維度的選擇；最后別忘了令牌化單位的影響。同時，在特定的數(shù)據(jù)集和應(yīng)用場景下測試模型的表現(xiàn)也非常重要。

使用嵌入模型的RAG系統(tǒng)工作流程大致如下：

預(yù)處理：這里會將輸入的文字拆分成標(biāo)記，并用預(yù)先訓(xùn)練好的模型（像BERT或者句子transformer）把這些標(biāo)記變成向量形式的嵌入。
建索引：就是把生成的這些嵌入信息保存到一個專門的向量數(shù)據(jù)庫里，比如FAISS、Pinecone或Weaviate這樣的工具。
檢索：當(dāng)有查詢進(jìn)來的時候，就到了檢索環(huán)節(jié)。系統(tǒng)會給這個查詢生成一個對應(yīng)的嵌入，然后利用余弦距離或者近似最近鄰搜索的方法，找出最相似的前k個文檔。
排序：根據(jù)一些額外的標(biāo)準(zhǔn)，如bm25分?jǐn)?shù)或交叉編碼器的結(jié)果，對找到的文檔重新排序。
增強(qiáng)：將篩選出的文檔交給大型語言模型（LLM），例如OpenAI的GPT系列、Claude或是Mistral等，讓它們基于這些文檔提供的事實和背景信息產(chǎn)生回答。

通過這一整套流程，可以確保最終的回答既準(zhǔn)確又具有相關(guān)性。

責(zé)任編輯：武曉燕來源：喔家ArchiSelf

RAG 框架模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="3z7o3"></sub>