自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從檢索增強(qiáng)——RAG看檢索技術(shù)的發(fā)展 原創(chuàng)

發(fā)布于 2024-10-9 09:48
瀏覽
0收藏

“ 檢索,一種世界性的難題 ”

檢索技術(shù)或者說搜索技術(shù)(雖然檢索與搜索有一定的區(qū)別)一直是一個(gè)世界級的難題,檢索技術(shù)可以說從人類出現(xiàn)就已經(jīng)開始了;只不過那時(shí)的檢索不叫檢索,叫找東西,只不過到二十一世紀(jì)之后,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,數(shù)據(jù)檢索成為了一個(gè)重要手段。

而今天我們就來談?wù)剻z索技術(shù)。

檢索

為什么標(biāo)題是從RAG看檢索技術(shù)?

RAG技術(shù)是在之前的文章中不只一次的介紹過,RAG是大模型技術(shù)的補(bǔ)充,大模型的表現(xiàn)在某種程度上依賴于RAG,而RAG最核心的一點(diǎn)就是更加高效和準(zhǔn)確的檢索。

但檢索技術(shù)卻不是因?yàn)镽AG技術(shù)才出現(xiàn)的,在RAG技術(shù)出現(xiàn)之前,檢索技術(shù)用的最多的應(yīng)該就是搜索引擎了。

從檢索增強(qiáng)——RAG看檢索技術(shù)的發(fā)展-AI.x社區(qū)

從功能的角度出發(fā),互聯(lián)網(wǎng)技術(shù)的發(fā)展特別是移動(dòng)互聯(lián)網(wǎng)時(shí)代的來臨,互聯(lián)網(wǎng)每天都會(huì)產(chǎn)生大量的數(shù)據(jù),而怎么把這些數(shù)據(jù)分門別類,讓需要的人快速從繁雜的數(shù)據(jù)中找到有用的東西,這是一個(gè)值得思考的問題。

而從技術(shù)的角度來說,在互聯(lián)網(wǎng)技術(shù)出現(xiàn)之前,數(shù)據(jù)或者說資料的管理方式主要是以紙質(zhì)文檔為主,而互聯(lián)網(wǎng)出現(xiàn)之后,數(shù)據(jù)主要以文件的形式存儲(chǔ)。

但做過技術(shù)的人都知道,文件存儲(chǔ)是一個(gè)費(fèi)時(shí)又費(fèi)力的東西;因此,這時(shí)一項(xiàng)偉大的發(fā)明出現(xiàn)了——那就是數(shù)據(jù)庫系統(tǒng)。

剛開始的數(shù)據(jù)庫系統(tǒng)是按照二維關(guān)系結(jié)構(gòu)構(gòu)建的關(guān)系數(shù)據(jù)庫系統(tǒng),到現(xiàn)在也在大量的使用,比如常見的mysql和oracle等。

使用數(shù)據(jù)庫的好處是什么?

好處就是速度快,數(shù)據(jù)一目了然,操作簡單方便。

而隨著技術(shù)的發(fā)展,不但數(shù)據(jù)量越來越多,數(shù)據(jù)形式和格式也越來越復(fù)雜,特別是非結(jié)構(gòu)化數(shù)據(jù)的爆發(fā)式增長;因此,非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)需求越來越大,而且也出現(xiàn)了很多非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)中間件,比如mongodb和redis等。

從檢索增強(qiáng)——RAG看檢索技術(shù)的發(fā)展-AI.x社區(qū)

而數(shù)據(jù)存儲(chǔ)是一方面,數(shù)據(jù)的檢索也是一方面;關(guān)系型數(shù)據(jù)庫的好處是一目了然,存儲(chǔ)也方便,但關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)檢索就沒有想象中的那么強(qiáng)大了。關(guān)系型數(shù)據(jù)庫只能進(jìn)行一些簡單的字符匹配或模糊查詢,一旦涉及到復(fù)雜查詢就無能為力了。

而這時(shí)搜索中間件就出現(xiàn)了,比如ES——ElasticSearch,它就是嵌入了分詞的功能,根據(jù)某種算法實(shí)現(xiàn)完整語句的拆分,使得搜索能力相比傳統(tǒng)關(guān)系型數(shù)據(jù)庫大大增強(qiáng)。

但同樣的是,ES的搜索能力依然有限,它們只能依靠純粹的字符匹配進(jìn)行檢索;比如說讓你去圖書館找本書,不懂的人只能按照書名去找,而懂的人就可以找到類似的。

而且面對現(xiàn)實(shí)世界中復(fù)雜的各種關(guān)系,簡單的字符匹配顯然無法滿足我們的需求;因此,一種基于語義查詢的方式就出現(xiàn)了。

從檢索增強(qiáng)——RAG看檢索技術(shù)的發(fā)展-AI.x社區(qū)

什么是語義查詢?

比如說,我說幫我搜索一下孫悟空;這時(shí)傳統(tǒng)的搜索方式只能搜索到與孫悟空三個(gè)字相關(guān)的內(nèi)容;而與齊天大圣,猴哥,弼馬溫相關(guān)的數(shù)據(jù)就無法準(zhǔn)確查詢了。

而有了語義分析的功能之后,就知道孫悟空,齊天大圣,弼馬溫,大師兄等等是一個(gè)人,這時(shí)就可以把與此相關(guān)的內(nèi)容全部查詢出來,而這就是RAG需要干的事情。

這也是為什么說,大模型知識庫的重點(diǎn)是不是模型,也不是知識庫,而是數(shù)據(jù)的精確檢索。大模型知識庫的好壞,是由檢索能力所決定的,而不是由大模型決定的。 

這也是在昨天關(guān)于RAG技術(shù)的文章中所說的,怎么提升數(shù)據(jù)的召回質(zhì)量,召回?cái)?shù)據(jù)的質(zhì)量越高,大模型的生成效果就越好。

嵌入模型的語義分析能力越強(qiáng),轉(zhuǎn)化的向量數(shù)據(jù)效果越好,最終檢索到的數(shù)據(jù)質(zhì)量也就越高。


本文轉(zhuǎn)載自公眾號AI探索時(shí)代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/t4vj028hHI2_lRZ65d9SfQ??



?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦