自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Agentic RAG-R1:讓大模型從「檢索助手」躍升為「思考+搜索王者」!

發(fā)布于 2025-5-6 00:47
瀏覽
0收藏

Agentic RAG-R1 是由北京大學(xué)研發(fā)的一項(xiàng)開源研究項(xiàng)目,旨在推動(dòng)語(yǔ)言模型在自主檢索與推理能力方面的能力邊界。該項(xiàng)目通過引入強(qiáng)化學(xué)習(xí)策略(GRPO),構(gòu)建了一個(gè)可自我規(guī)劃、檢索、推理與總結(jié)的智能體式 RAG 系統(tǒng)。

核心亮點(diǎn)

1. Agentic RAG 架構(gòu):融合檢索增強(qiáng)生成(RAG)與 Agentic AI 機(jī)制,模型不僅生成答案,還能“決定如何生成答案”。

2. 強(qiáng)化學(xué)習(xí)優(yōu)化(GRPO):借助 Generalized Relevance Policy Optimization,讓模型學(xué)會(huì)更合理地選擇檢索和推理步驟。

3. 多輪推理與回溯能力:支持計(jì)劃、回溯、總結(jié)等多種 agent 行為,實(shí)現(xiàn)人類式的問題解決流程。

4. LoRA 與量化支持:低成本微調(diào)與高效推理并存,輕松部署大模型至生產(chǎn)環(huán)境。

5. 豐富獎(jiǎng)勵(lì)機(jī)制:引入格式、準(zhǔn)確性、RAG 表現(xiàn)等多個(gè)維度的獎(jiǎng)勵(lì),訓(xùn)練出更“懂業(yè)務(wù)”的智能體。

Github項(xiàng)目地址: ???https://github.com/jiangxinke/Agentic-RAG-R1??

“模型自主、工具自選、推理自洽”——Agentic RAG-R1 用強(qiáng)化學(xué)習(xí)把 RAG 帶進(jìn)智能體時(shí)代。

背景:為什么 RAG 需要 “Agentic”?

?事實(shí)性:RAG 通過外部檢索解決 “幻覺” 問題,但仍依賴人工提示來決定何時(shí)檢索。

?上下文爆炸:檢索結(jié)果越多,拼接進(jìn)上下文越長(zhǎng),反而稀釋關(guān)鍵信息。

?多跳推理:復(fù)雜任務(wù)需要 “查-思-查-思” 循環(huán),僅一次檢索難以覆蓋。

Agentic RAG-R1 讓模型在每一步“思考”時(shí)都能自主決定:

1.是否檢索? —— 省掉無(wú)關(guān)調(diào)用,提高效率

2.檢索什么? —— 人類不再手寫復(fù)雜 prompt

3.如何引用? —— 自動(dòng)將證據(jù)融入推理鏈

體系結(jié)構(gòu):全面的 Agentic 思考

核心理念:兩大王牌技術(shù)的強(qiáng)強(qiáng)聯(lián)合

Agentic RAG-R1:讓大模型從「檢索助手」躍升為「思考+搜索王者」!-AI.x社區(qū)

檢索增強(qiáng)生成 (RAG):在生成過程中即時(shí)從外部知識(shí)庫(kù)檢索信息,兼具語(yǔ)言模型的創(chuàng)造力與實(shí)時(shí)、可信的事實(shí)。

 Agentic AI 智能體:讓模型自主決定何時(shí)檢索、檢索什么,以及如何把檢索證據(jù)編織進(jìn)推理鏈,真正做到“會(huì)思考、會(huì)行動(dòng)”。

架構(gòu):基于 TC-RAG 的智能體思考循環(huán)

Agentic RAG-R1:讓大模型從「檢索助手」躍升為「思考+搜索王者」!-AI.x社區(qū)

目前支持如下動(dòng)作:

#

動(dòng)作

說明

狀態(tài)

1

?? Reasoning(推理)

展開思考、提出假設(shè)

?

2

?? Backtrack(回溯)

回到上一節(jié)點(diǎn),修正思路

?

3

?? Summary(總結(jié))

匯總已有證據(jù),壓縮上下文

?

4

??? Tool Observation(工具調(diào)用)

訪問 Wiki / 文檔 / 知識(shí)圖譜等

?

5

? Conclusion(結(jié)論)

輸出最終答案

?


技術(shù)細(xì)節(jié)深挖

Features

組件

關(guān)鍵點(diǎn)

優(yōu)勢(shì)

GRPO (Generalized Relevance Policy Optimization)

采樣多條推理-檢索軌跡,對(duì)“高相關(guān)、高準(zhǔn)確、高格式”路徑賦正獎(jiǎng)勵(lì)

訓(xùn)練穩(wěn)定

、收斂快,避免 RLHF 里的 Reward Hacking

LoRA + NF4 量化

10?% 參數(shù)可訓(xùn)練,int-4 存儲(chǔ)

GPU 省錢

,多實(shí)驗(yàn)迭代無(wú)壓力

Deepspeed Zero-3

權(quán)重 & 優(yōu)化器拆分到 CPU / NVMe

3×A100 → 32B

 輕松起飛

多模態(tài)工具接口

支持文本、代碼、數(shù)據(jù)庫(kù)、REST API

讓模型在“真實(shí)工作流”里落地

獎(jiǎng)勵(lì)公式: ( 

其中 r_rag 由 RAGAS 自動(dòng)評(píng)測(cè)檢索片段是否被有效引用。

Rollout Generation

Agentic RAG-R1:讓大模型從「檢索助手」躍升為「思考+搜索王者」!-AI.x社區(qū)


結(jié)果:數(shù)據(jù)說話

數(shù)據(jù)集:MedQA(中英雙語(yǔ))?|?Judge Model:Qwen-2.5-72B

設(shè)置

格式準(zhǔn)確率 ↑

答案準(zhǔn)確率 ↑

微調(diào)前

39 %

84 %

微調(diào)前 + 檢索

56 %

79 %

微調(diào)后 + 檢索

92 % (+53 %)

87 % (+3 %)

?跨語(yǔ)言:中/英兩份測(cè)試集均顯著提升

?復(fù)雜推理:多跳問題正確率提升 8?% 以上

?工具調(diào)用成功率:> 95 %,日志可追溯

實(shí)際測(cè)試結(jié)果:

Agentic RAG-R1:讓大模型從「檢索助手」躍升為「思考+搜索王者」!-AI.x社區(qū)

 FAQ

Q1:必須用 32B 模型嗎?

A1:不需要!我們默認(rèn)用 Qwen-2.5-7B-Instruct;你也可以換成 Llama-3-8B / Baichuan-13B,只需改配置。

Q2:RL 訓(xùn)練很復(fù)雜嗎?

A2:腳本參數(shù)與常規(guī) LoRA 差不多,多加一份獎(jiǎng)勵(lì)配置即可。CPU 顯存不足?Zero-3 + Offload 輕松搞定。

結(jié)語(yǔ) & 口號(hào)

“模型自主,檢索在手;深度推理,靠譜出口!”

“讓 LLM 會(huì)自己找資料,再也不用 Ctrl + C / Ctrl + V!”

本文轉(zhuǎn)載自????PaperAgent??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦