RAG工程如何評測? 原創(chuàng)
?本篇主要講RAG工程的評測方法。
本篇屬于RAG系列,上一篇整理了RAG的基礎(chǔ),沒看過的小伙伴也可以參考~本篇來繼續(xù)介紹RAG工程如何評測。下面是一個快捷目錄。
一、RAG評估方法
二、RAG 的關(guān)鍵指標和能力
三、RAG的評估框架
一、RAG評估方法
有兩種方法評估RAG:獨立評估和端到端
1. 獨立評估
獨立評估就是對檢索模塊和生成模型分布評估。
1)檢索模塊
評估RAG檢索模塊性能的指標主要用于衡量系統(tǒng)(如搜索引擎、推薦系統(tǒng)或信息檢索系統(tǒng)),即根據(jù)查詢評估有效性。
具體指標包括:命中率 (Hit Rate)、平均排名倒數(shù) (MRR)、歸一化折扣累積增益 (NDCG)、精確度 (Precision) 等。這塊跟推薦系統(tǒng)的評價指標相同。
- 命中率 (Hit Rate)
檢索結(jié)果中用戶實際檢索的實體詞或者關(guān)鍵詞所占的比例。
- 平均排名倒數(shù) (MRR)
是用來衡量返回結(jié)果的排名質(zhì)量。MRR考慮了用戶第一次遇到相關(guān)檢索的排名;
結(jié)果列表中,第一個結(jié)果匹配,分數(shù)為1,第二個匹配分數(shù)為0.5,第n個匹配分數(shù)為1/n,如果沒有匹配的句子分數(shù)為0。最終的分數(shù)為所有得分之和,再求平均。
計算方法
對于每個查詢,首先計算倒數(shù)排名(即第一個相關(guān)檢索的排名的倒數(shù)),如果沒有相關(guān)檢索結(jié)果,則倒數(shù)排名為0。然后,計算所有查詢的倒數(shù)排名的平均值。
- 歸一化折扣累積增益 (NDCG)
NDCG用于衡量排名質(zhì)量。它考慮了所有相關(guān)結(jié)果的排名,并根據(jù)排名對其賦予不同的權(quán)重(排名越靠前,權(quán)重越大)。
計算方法
首先計算DCG(Discounted Cumulative Gain),然后將其標準化。
2)端到端評估
RAG 對特定輸入生成的最終響應進行評估,主要是模型生成的答案與輸入查詢的相關(guān)性和一致性。
- 對無標簽的內(nèi)容評估評價指標:答案的準確性、相關(guān)性和無害性
- 有標簽的內(nèi)容評估評價指標:準確率 (Accuracy) 和精確匹配 (EM)
準確率比較簡單,主要具體講一下精準匹配 (EM)。
精確匹配是指模型給出的答案與參考答案完全一致時的評價指標。
如果模型的答案與參考答案完全相同,則EM得分為1;否則為0。
計算公式:
EM = 1,如果答案與參考答案完全一致;
EM = 0,如果答案與參考答案不一致。
二、RAG 的關(guān)鍵指標和能力
三個關(guān)鍵指標:答案的準確性、答案的相關(guān)性和上下文的相關(guān)性。
四個關(guān)鍵能力:主要是看抗噪聲能力、拒絕無效回答能力、信息綜合能力和反事實穩(wěn)健性。
三、RAG的評估框架
這里介紹的主要是RAGAS 和 ARES。
1. RAGAS
RAGAS 是一個基于簡單手寫提示的評估框架,通過這些提示全自動地衡量答案的準確性、 相關(guān)性和上下文相關(guān)性。
算法原理:
1) 答案忠實度評估:利用大語言模型 (LLM) 分解答案為多個陳述,檢驗每個陳述與上下文 的一致性。即根據(jù)支持的陳述數(shù)量與總陳述數(shù)量的比例,計算出一個“忠實度得分”。
2) 答案相關(guān)性評估:使用大語言模型 (LLM) 創(chuàng)造可能的問題,并分析這些問題與原始問題的相似度。答案相關(guān)性得分是通過計算所有生成問題與原始問題相似度的平均值來得出的。
3)上下文相關(guān)性評估:運用大語言模型 (LLM) 篩選出直接與問題相關(guān)的句子,以這些句子占上下文總句子數(shù)量的比例來確定上下文相關(guān)性得分。
2. ARES
ARES 的目標是自動化評價 RAG 系統(tǒng)在上下文相關(guān)性、答案忠實度和答案相關(guān)性三個方面的性能。
ARES 減少了評估成本,通過使用少量的手動標注數(shù)據(jù)和合成數(shù)據(jù),并應用預測驅(qū)動推理 (PDR) 提供統(tǒng)計置信區(qū)間,提高了評估的準確性。
算法原理:
1)生成合成數(shù)據(jù)集:ARES 首先使用語言模型從目標語料庫中的文檔生成合成問題和答案,創(chuàng) 建正負兩種樣本。
2)訓練大語言模型 (LLM) 裁判:然后,ARES 對輕量級語言模型進行微調(diào),利用合成數(shù)據(jù)集訓練它們以評其上下文相關(guān)性、答案忠實度和答案相關(guān)性。
3)基于置信區(qū)間對RAG系統(tǒng)排名:最后,ARES 使用這些裁判模型為 RAG 系統(tǒng)打分,并結(jié)合手動標注的驗證集,采用 PPI 方法生成置信區(qū)間,從而可靠地評估RAG 系統(tǒng)的性能。
?
本文轉(zhuǎn)載自公眾號瓦力算法學研所,作者:喜歡瓦力的卷卷
