自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

RAG工程如何評測？原創(chuàng)

發(fā)布于 2024-10-15 13:58

瀏覽

0收藏

?本篇主要講RAG工程的評測方法。

本篇屬于RAG系列，上一篇整理了RAG的基礎(chǔ)，沒看過的小伙伴也可以參考~本篇來繼續(xù)介紹RAG工程如何評測。下面是一個快捷目錄。

一、RAG評估方法

二、RAG 的關(guān)鍵指標和能力

三、RAG的評估框架

一、RAG評估方法

有兩種方法評估RAG：獨立評估和端到端

1. 獨立評估

獨立評估就是對檢索模塊和生成模型分布評估。

1）檢索模塊

評估RAG檢索模塊性能的指標主要用于衡量系統(tǒng)（如搜索引擎、推薦系統(tǒng)或信息檢索系統(tǒng)），即根據(jù)查詢評估有效性。

具體指標包括：命中率 (Hit Rate)、平均排名倒數(shù) (MRR)、歸一化折扣累積增益 (NDCG)、精確度 (Precision) 等。這塊跟推薦系統(tǒng)的評價指標相同。

命中率 (Hit Rate)

檢索結(jié)果中用戶實際檢索的實體詞或者關(guān)鍵詞所占的比例。

平均排名倒數(shù) (MRR)

是用來衡量返回結(jié)果的排名質(zhì)量。MRR考慮了用戶第一次遇到相關(guān)檢索的排名；

結(jié)果列表中，第一個結(jié)果匹配，分數(shù)為1，第二個匹配分數(shù)為0.5，第n個匹配分數(shù)為1/n，如果沒有匹配的句子分數(shù)為0。最終的分數(shù)為所有得分之和，再求平均。

計算方法

對于每個查詢，首先計算倒數(shù)排名（即第一個相關(guān)檢索的排名的倒數(shù)），如果沒有相關(guān)檢索結(jié)果，則倒數(shù)排名為0。然后，計算所有查詢的倒數(shù)排名的平均值。

RAG工程如何評測？-AI.x社區(qū)

歸一化折扣累積增益 (NDCG)

NDCG用于衡量排名質(zhì)量。它考慮了所有相關(guān)結(jié)果的排名，并根據(jù)排名對其賦予不同的權(quán)重（排名越靠前，權(quán)重越大）。

計算方法

首先計算DCG（Discounted Cumulative Gain），然后將其標準化。

RAG工程如何評測？-AI.x社區(qū)

2）端到端評估

RAG 對特定輸入生成的最終響應進行評估，主要是模型生成的答案與輸入查詢的相關(guān)性和一致性。

對無標簽的內(nèi)容評估評價指標：答案的準確性、相關(guān)性和無害性
有標簽的內(nèi)容評估評價指標：準確率 (Accuracy) 和精確匹配 (EM)

準確率比較簡單，主要具體講一下精準匹配 (EM)。

精確匹配是指模型給出的答案與參考答案完全一致時的評價指標。

如果模型的答案與參考答案完全相同，則EM得分為1；否則為0。

計算公式：

EM = 1，如果答案與參考答案完全一致；

EM = 0，如果答案與參考答案不一致。

二、RAG 的關(guān)鍵指標和能力

三個關(guān)鍵指標：答案的準確性、答案的相關(guān)性和上下文的相關(guān)性。

四個關(guān)鍵能力：主要是看抗噪聲能力、拒絕無效回答能力、信息綜合能力和反事實穩(wěn)健性。

三、RAG的評估框架

這里介紹的主要是RAGAS 和 ARES。

1. RAGAS

RAGAS 是一個基于簡單手寫提示的評估框架，通過這些提示全自動地衡量答案的準確性、相關(guān)性和上下文相關(guān)性。

算法原理：

1）答案忠實度評估：利用大語言模型 (LLM) 分解答案為多個陳述，檢驗每個陳述與上下文的一致性。即根據(jù)支持的陳述數(shù)量與總陳述數(shù)量的比例，計算出一個“忠實度得分”。

2）答案相關(guān)性評估：使用大語言模型 (LLM) 創(chuàng)造可能的問題，并分析這些問題與原始問題的相似度。答案相關(guān)性得分是通過計算所有生成問題與原始問題相似度的平均值來得出的。

3）上下文相關(guān)性評估：運用大語言模型 (LLM) 篩選出直接與問題相關(guān)的句子，以這些句子占上下文總句子數(shù)量的比例來確定上下文相關(guān)性得分。

2. ARES

ARES 的目標是自動化評價 RAG 系統(tǒng)在上下文相關(guān)性、答案忠實度和答案相關(guān)性三個方面的性能。

ARES 減少了評估成本，通過使用少量的手動標注數(shù)據(jù)和合成數(shù)據(jù)，并應用預測驅(qū)動推理 (PDR) 提供統(tǒng)計置信區(qū)間，提高了評估的準確性。

算法原理：

1）生成合成數(shù)據(jù)集：ARES 首先使用語言模型從目標語料庫中的文檔生成合成問題和答案，創(chuàng) 建正負兩種樣本。

2）訓練大語言模型 (LLM) 裁判：然后，ARES 對輕量級語言模型進行微調(diào)，利用合成數(shù)據(jù)集訓練它們以評其上下文相關(guān)性、答案忠實度和答案相關(guān)性。

3）基于置信區(qū)間對RAG系統(tǒng)排名：最后，ARES 使用這些裁判模型為 RAG 系統(tǒng)打分，并結(jié)合手動標注的驗證集，采用 PPI 方法生成置信區(qū)間，從而可靠地評估RAG 系統(tǒng)的性能。

?

本文轉(zhuǎn)載自公眾號瓦力算法學研所，作者：喜歡瓦力的卷卷

原文鏈接：??https://mp.weixin.qq.com/s/sts_izj1OXqN2W6L4kNtXg???

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關(guān)推薦

ChemBench：大語言模型化學能力評測數(shù)據(jù)集

戀戀青鳥 ? 4028瀏覽 ? 0回復
Flames 安全評測基準：大語言模型的對齊效果如何？

戀戀青鳥 ? 3630瀏覽 ? 0回復
GPT-4系列模型，在文檔理解中的多維度評測

Aceryt ? 2220瀏覽 ? 0回復
如何訓練LLM自動在RAG和參數(shù)記憶之間進行選擇

51CTO內(nèi)容精選 ? 2560瀏覽 ? 0回復
如何為軟件工程優(yōu)化ChatGPT和其他大模型

51CTO內(nèi)容精選 ? 2318瀏覽 ? 0回復
模型更新，評測集優(yōu)化：多模態(tài)大模型評測升級！

戀戀青鳥 ? 5123瀏覽 ? 0回復
什么是提示詞工程(prompt engineering)？為什么需要提示詞工程？

AI探索時代 ? 6258瀏覽 ? 0回復
如何利用RAG+Agent輕松解決企業(yè)復雜問題？

玄姐聊AGI ? 2594瀏覽 ? 0回復
如何改進RAG模型的性能？

51CTO內(nèi)容精選 ? 2341瀏覽 ? 0回復
大模型面經(jīng)—RAG工程實踐經(jīng)驗總結(jié)

shizhi02 ? 2377瀏覽 ? 0回復
多模態(tài)大模型能力評測基準全面綜述：理解、推理、生成、應用、趨勢

十一月雨_55 ? 8631瀏覽 ? 0回復
LangChain-RAG必備：向量數(shù)據(jù)庫如何CRUD

ermulong ? 2538瀏覽 ? 0回復
如何全面評估多模態(tài)大模型能力？MLLM評測任務(wù)與指標總結(jié)

shizhi02 ? 6852瀏覽 ? 0回復
奇奇怪怪的研究：RAG 如何提升 ASR 效果的研究

芝士AI吃魚 ? 2034瀏覽 ? 0回復
Graph RAG 迎來記憶革命：“海馬體”機制如何提升準確率？

凝固的雨_1 ? 2305瀏覽 ? 0回復
DeepSeek如何顛覆傳統(tǒng)軟件測試？測試工程師會被淘汰嗎？

mb67d4200f74d5e ? 1273瀏覽 ? 0回復
【模型測試】大模型評測工具OpenCompass使用方法總結(jié)

一起AI技術(shù) ? 2489瀏覽 ? 0回復
RAG 模型的“靈魂伴侶”：如何挑選最適合的嵌入方法？

Halo咯咯 ? 2204瀏覽 ? 0回復
深入剖析：如何利用 AI 智能體增強傳統(tǒng) RAG 系統(tǒng)

Halo咯咯 ? 1413瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

AI Infra—如何從 LLM training 轉(zhuǎn) Inference 7天前發(fā)布
智駕中的VLA方案總結(jié) 7天前發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實戰(zhàn)教程 0回復

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復

2025年最值得關(guān)注的十大多模態(tài)大語言模型！ 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復

上一篇：注意力機制的變體之MLA

下一篇：大模型微調(diào)方法之QLoRA

社區(qū)精華內(nèi)容

目錄

<center id="w7sof"><option id="w7sof"><strong id="w7sof"></strong></option></center><thead id="w7sof"><option id="w7sof"><track id="w7sof"></track></option></thead>

<center id="w7sof"></center>