Agentic RAG-R1:讓大模型從「檢索助手」躍升為「思考+搜索王者」!
Agentic RAG-R1 是由北京大學(xué)研發(fā)的一項(xiàng)開源研究項(xiàng)目,旨在推動(dòng)語(yǔ)言模型在自主檢索與推理能力方面的能力邊界。該項(xiàng)目通過引入強(qiáng)化學(xué)習(xí)策略(GRPO),構(gòu)建了一個(gè)可自我規(guī)劃、檢索、推理與總結(jié)的智能體式 RAG 系統(tǒng)。
核心亮點(diǎn)
1. Agentic RAG 架構(gòu):融合檢索增強(qiáng)生成(RAG)與 Agentic AI 機(jī)制,模型不僅生成答案,還能“決定如何生成答案”。
2. 強(qiáng)化學(xué)習(xí)優(yōu)化(GRPO):借助 Generalized Relevance Policy Optimization,讓模型學(xué)會(huì)更合理地選擇檢索和推理步驟。
3. 多輪推理與回溯能力:支持計(jì)劃、回溯、總結(jié)等多種 agent 行為,實(shí)現(xiàn)人類式的問題解決流程。
4. LoRA 與量化支持:低成本微調(diào)與高效推理并存,輕松部署大模型至生產(chǎn)環(huán)境。
5. 豐富獎(jiǎng)勵(lì)機(jī)制:引入格式、準(zhǔn)確性、RAG 表現(xiàn)等多個(gè)維度的獎(jiǎng)勵(lì),訓(xùn)練出更“懂業(yè)務(wù)”的智能體。
Github項(xiàng)目地址: ???https://github.com/jiangxinke/Agentic-RAG-R1??
“模型自主、工具自選、推理自洽”——Agentic RAG-R1 用強(qiáng)化學(xué)習(xí)把 RAG 帶進(jìn)智能體時(shí)代。
背景:為什么 RAG 需要 “Agentic”?
?事實(shí)性:RAG 通過外部檢索解決 “幻覺” 問題,但仍依賴人工提示來決定何時(shí)檢索。
?上下文爆炸:檢索結(jié)果越多,拼接進(jìn)上下文越長(zhǎng),反而稀釋關(guān)鍵信息。
?多跳推理:復(fù)雜任務(wù)需要 “查-思-查-思” 循環(huán),僅一次檢索難以覆蓋。
Agentic RAG-R1 讓模型在每一步“思考”時(shí)都能自主決定:
1.是否檢索? —— 省掉無(wú)關(guān)調(diào)用,提高效率
2.檢索什么? —— 人類不再手寫復(fù)雜 prompt
3.如何引用? —— 自動(dòng)將證據(jù)融入推理鏈
體系結(jié)構(gòu):全面的 Agentic 思考
核心理念:兩大王牌技術(shù)的強(qiáng)強(qiáng)聯(lián)合
檢索增強(qiáng)生成 (RAG):在生成過程中即時(shí)從外部知識(shí)庫(kù)檢索信息,兼具語(yǔ)言模型的創(chuàng)造力與實(shí)時(shí)、可信的事實(shí)。
Agentic AI 智能體:讓模型自主決定何時(shí)檢索、檢索什么,以及如何把檢索證據(jù)編織進(jìn)推理鏈,真正做到“會(huì)思考、會(huì)行動(dòng)”。
架構(gòu):基于 TC-RAG 的智能體思考循環(huán)
目前支持如下動(dòng)作:
# | 動(dòng)作 | 說明 | 狀態(tài) |
1 | ?? Reasoning(推理) | 展開思考、提出假設(shè) | ? |
2 | ?? Backtrack(回溯) | 回到上一節(jié)點(diǎn),修正思路 | ? |
3 | ?? Summary(總結(jié)) | 匯總已有證據(jù),壓縮上下文 | ? |
4 | ??? Tool Observation(工具調(diào)用) | 訪問 Wiki / 文檔 / 知識(shí)圖譜等 | ? |
5 | ? Conclusion(結(jié)論) | 輸出最終答案 | ? |
技術(shù)細(xì)節(jié)深挖
Features
組件 | 關(guān)鍵點(diǎn) | 優(yōu)勢(shì) |
GRPO (Generalized Relevance Policy Optimization) | 采樣多條推理-檢索軌跡,對(duì)“高相關(guān)、高準(zhǔn)確、高格式”路徑賦正獎(jiǎng)勵(lì) | 訓(xùn)練穩(wěn)定 、收斂快,避免 RLHF 里的 Reward Hacking |
LoRA + NF4 量化 | 10?% 參數(shù)可訓(xùn)練,int-4 存儲(chǔ) | GPU 省錢 ,多實(shí)驗(yàn)迭代無(wú)壓力 |
Deepspeed Zero-3 | 權(quán)重 & 優(yōu)化器拆分到 CPU / NVMe | 3×A100 → 32B 輕松起飛 |
多模態(tài)工具接口 | 支持文本、代碼、數(shù)據(jù)庫(kù)、REST API | 讓模型在“真實(shí)工作流”里落地 |
獎(jiǎng)勵(lì)公式: (
其中 r_rag 由 RAGAS 自動(dòng)評(píng)測(cè)檢索片段是否被有效引用。
Rollout Generation
結(jié)果:數(shù)據(jù)說話
數(shù)據(jù)集:MedQA(中英雙語(yǔ))?|?Judge Model:Qwen-2.5-72B
設(shè)置 | 格式準(zhǔn)確率 ↑ | 答案準(zhǔn)確率 ↑ |
微調(diào)前 | 39 % | 84 % |
微調(diào)前 + 檢索 | 56 % | 79 % |
微調(diào)后 + 檢索 | 92 % (+53 %) | 87 % (+3 %) |
?跨語(yǔ)言:中/英兩份測(cè)試集均顯著提升
?復(fù)雜推理:多跳問題正確率提升 8?% 以上
?工具調(diào)用成功率:> 95 %,日志可追溯
實(shí)際測(cè)試結(jié)果:
FAQ
Q1:必須用 32B 模型嗎?
A1:不需要!我們默認(rèn)用 Qwen-2.5-7B-Instruct;你也可以換成 Llama-3-8B / Baichuan-13B,只需改配置。
Q2:RL 訓(xùn)練很復(fù)雜嗎?
A2:腳本參數(shù)與常規(guī) LoRA 差不多,多加一份獎(jiǎng)勵(lì)配置即可。CPU 顯存不足?Zero-3 + Offload 輕松搞定。
結(jié)語(yǔ) & 口號(hào)
“模型自主,檢索在手;深度推理,靠譜出口!”
“讓 LLM 會(huì)自己找資料,再也不用 Ctrl + C / Ctrl + V!”
本文轉(zhuǎn)載自????PaperAgent??
