自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="3mmq8"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

Agentic RAG-R1：讓大模型從「檢索助手」躍升為「思考+搜索王者」！

發(fā)布于 2025-5-6 00:47

瀏覽

0收藏

Agentic RAG-R1 是由北京大學(xué)研發(fā)的一項(xiàng)開源研究項(xiàng)目，旨在推動(dòng)語(yǔ)言模型在自主檢索與推理能力方面的能力邊界。該項(xiàng)目通過引入強(qiáng)化學(xué)習(xí)策略（GRPO），構(gòu)建了一個(gè)可自我規(guī)劃、檢索、推理與總結(jié)的智能體式 RAG 系統(tǒng)。

核心亮點(diǎn)

1. Agentic RAG 架構(gòu)：融合檢索增強(qiáng)生成（RAG）與 Agentic AI 機(jī)制，模型不僅生成答案，還能“決定如何生成答案”。

2. 強(qiáng)化學(xué)習(xí)優(yōu)化（GRPO）：借助 Generalized Relevance Policy Optimization，讓模型學(xué)會(huì)更合理地選擇檢索和推理步驟。

3. 多輪推理與回溯能力：支持計(jì)劃、回溯、總結(jié)等多種 agent 行為，實(shí)現(xiàn)人類式的問題解決流程。

4. LoRA 與量化支持：低成本微調(diào)與高效推理并存，輕松部署大模型至生產(chǎn)環(huán)境。

5. 豐富獎(jiǎng)勵(lì)機(jī)制：引入格式、準(zhǔn)確性、RAG 表現(xiàn)等多個(gè)維度的獎(jiǎng)勵(lì)，訓(xùn)練出更“懂業(yè)務(wù)”的智能體。

Github項(xiàng)目地址： ???https://github.com/jiangxinke/Agentic-RAG-R1??

“模型自主、工具自選、推理自洽”——Agentic RAG-R1 用強(qiáng)化學(xué)習(xí)把 RAG 帶進(jìn)智能體時(shí)代。

背景：為什么 RAG 需要 “Agentic”？

?事實(shí)性：RAG 通過外部檢索解決 “幻覺” 問題，但仍依賴人工提示來決定何時(shí)檢索。

?上下文爆炸：檢索結(jié)果越多，拼接進(jìn)上下文越長(zhǎng)，反而稀釋關(guān)鍵信息。

?多跳推理：復(fù)雜任務(wù)需要 “查-思-查-思” 循環(huán)，僅一次檢索難以覆蓋。

Agentic RAG-R1 讓模型在每一步“思考”時(shí)都能自主決定：

1.是否檢索？ —— 省掉無(wú)關(guān)調(diào)用，提高效率

2.檢索什么？ —— 人類不再手寫復(fù)雜 prompt

3.如何引用？ —— 自動(dòng)將證據(jù)融入推理鏈

體系結(jié)構(gòu)：全面的 Agentic 思考

核心理念：兩大王牌技術(shù)的強(qiáng)強(qiáng)聯(lián)合

Agentic RAG-R1：讓大模型從「檢索助手」躍升為「思考+搜索王者」！-AI.x社區(qū)

檢索增強(qiáng)生成 (RAG)：在生成過程中即時(shí)從外部知識(shí)庫(kù)檢索信息，兼具語(yǔ)言模型的創(chuàng)造力與實(shí)時(shí)、可信的事實(shí)。

Agentic AI 智能體：讓模型自主決定何時(shí)檢索、檢索什么，以及如何把檢索證據(jù)編織進(jìn)推理鏈，真正做到“會(huì)思考、會(huì)行動(dòng)”。

架構(gòu)：基于 TC-RAG 的智能體思考循環(huán)

Agentic RAG-R1：讓大模型從「檢索助手」躍升為「思考+搜索王者」！-AI.x社區(qū)

目前支持如下動(dòng)作：

#	動(dòng)作	說明	狀態(tài)
1	?? Reasoning（推理）	展開思考、提出假設(shè)	?
2	?? Backtrack（回溯）	回到上一節(jié)點(diǎn)，修正思路	?
3	?? Summary（總結(jié)）	匯總已有證據(jù)，壓縮上下文	?
4	??? Tool Observation（工具調(diào)用）	訪問 Wiki / 文檔 / 知識(shí)圖譜等	?
5	? Conclusion（結(jié)論）	輸出最終答案	?

技術(shù)細(xì)節(jié)深挖

Features

組件	關(guān)鍵點(diǎn)	優(yōu)勢(shì)
GRPO (Generalized Relevance Policy Optimization)	采樣多條推理-檢索軌跡，對(duì)“高相關(guān)、高準(zhǔn)確、高格式”路徑賦正獎(jiǎng)勵(lì)	訓(xùn)練穩(wěn)定、收斂快，避免 RLHF 里的 Reward Hacking
LoRA + NF4 量化	10?% 參數(shù)可訓(xùn)練，int-4 存儲(chǔ)	GPU 省錢，多實(shí)驗(yàn)迭代無(wú)壓力
Deepspeed Zero-3	權(quán)重 & 優(yōu)化器拆分到 CPU / NVMe	3×A100 → 32B 輕松起飛
多模態(tài)工具接口	支持文本、代碼、數(shù)據(jù)庫(kù)、REST API	讓模型在“真實(shí)工作流”里落地

獎(jiǎng)勵(lì)公式: (
其中 r_rag 由 RAGAS 自動(dòng)評(píng)測(cè)檢索片段是否被有效引用。

Rollout Generation

Agentic RAG-R1：讓大模型從「檢索助手」躍升為「思考+搜索王者」！-AI.x社區(qū)

結(jié)果：數(shù)據(jù)說話

數(shù)據(jù)集：MedQA（中英雙語(yǔ)）?|?Judge Model：Qwen-2.5-72B

設(shè)置	格式準(zhǔn)確率 ↑	答案準(zhǔn)確率 ↑
微調(diào)前	39 %	84 %
微調(diào)前 + 檢索	56 %	79 %
微調(diào)后 + 檢索	92 % (+53 %)	87 % (+3 %)

?跨語(yǔ)言：中/英兩份測(cè)試集均顯著提升

?復(fù)雜推理：多跳問題正確率提升 8?% 以上

?工具調(diào)用成功率：> 95 %，日志可追溯

實(shí)際測(cè)試結(jié)果：

Agentic RAG-R1：讓大模型從「檢索助手」躍升為「思考+搜索王者」！-AI.x社區(qū)

FAQ

Q1：必須用 32B 模型嗎？
A1：不需要！我們默認(rèn)用 Qwen-2.5-7B-Instruct；你也可以換成 Llama-3-8B / Baichuan-13B，只需改配置。
Q2：RL 訓(xùn)練很復(fù)雜嗎？
A2：腳本參數(shù)與常規(guī) LoRA 差不多，多加一份獎(jiǎng)勵(lì)配置即可。CPU 顯存不足？Zero-3 + Offload 輕松搞定。

結(jié)語(yǔ) & 口號(hào)

“模型自主，檢索在手；深度推理，靠譜出口！”
“讓 LLM 會(huì)自己找資料，再也不用 Ctrl + C / Ctrl + V！”

本文轉(zhuǎn)載自????PaperAgent??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

熱門內(nèi)容榜 ? 最近上榜

回復(fù)

相關(guān)推薦

RAG全景圖：從RAG啟蒙到高級(jí)RAG之36技，再到終章Agentic RAG！

PaperAgent ? 4870瀏覽 ? 0回復(fù)
GLM-4-Flash宣布免費(fèi)，Agentic RAG體驗(yàn)，讓我覺著，真香！

PaperAgent ? 2557瀏覽 ? 0回復(fù)
從檢索增強(qiáng)——RAG看檢索技術(shù)的發(fā)展

AI探索時(shí)代 ? 2031瀏覽 ? 0回復(fù)
再見RAG，你好Agentic RAG！

xuxiangda ? 2414瀏覽 ? 0回復(fù)
再談大模型向量，由向量檢索引起的思考

AI探索時(shí)代 ? 1905瀏覽 ? 0回復(fù)
使用代理混合搜索讓你的RAG應(yīng)用程序成為智能化“助手”

51CTO內(nèi)容精選 ? 1846瀏覽 ? 0回復(fù)
無(wú)需檢索！CAG 通過鍵值緩存讓 RAG 輕松上手

凝固的雨_1 ? 2922瀏覽 ? 0回復(fù)
從RAG到RAG+：讓大模型更懂業(yè)務(wù)的權(quán)威指南

芝士AI吃魚 ? 2032瀏覽 ? 0回復(fù)
RAG圈的DeepSeek，中科院DeepRAG讓大模型帶著“思考”檢索，性能提升21.99%

PaperAgent ? 3150瀏覽 ? 0回復(fù)
讓模型像人一樣思考

zhcs333 ? 1788瀏覽 ? 0回復(fù)
DeepSeek R1與Qwen大模型，構(gòu)建Agentic RAG全攻略

小虎哦哦 ? 4856瀏覽 ? 0回復(fù)
動(dòng)手做：滿血版DeepSeek R1+Agentic RAG 構(gòu)建聯(lián)網(wǎng)搜索智能體（附源碼）

zhcs333 ? 3464瀏覽 ? 0回復(fù)
Grok 3 與 DeepSeek-R1 是怎么學(xué)會(huì)思考的？

機(jī)器學(xué)習(xí)與數(shù)學(xué) ? 3065瀏覽 ? 0回復(fù)
LLM-Reasoner：讓任何大模型都能像DeepSeek R1一樣深入思考

PyTorch研習(xí)社 ? 1604瀏覽 ? 0回復(fù)
Search-R1：強(qiáng)化學(xué)習(xí)增強(qiáng)大語(yǔ)言模型推理+搜索能力

十一月雨_55 ? 1710瀏覽 ? 0回復(fù)
探索智能代理增強(qiáng)檢索生成（Agentic RAG）：從基礎(chǔ)到實(shí)踐

Halo咯咯 ? 1580瀏覽 ? 0回復(fù)
Search-R1：讓大模型學(xué)會(huì)“檢索+推理”的新范式

arnoldzhw ? 1231瀏覽 ? 0回復(fù)
RAG只能應(yīng)用于文本檢索嗎？關(guān)于大模型應(yīng)用之RAG——檢索增強(qiáng)的思考

AI探索時(shí)代 ? 1150瀏覽 ? 0回復(fù)
LLM - Reasoner：讓 LLM 像 DeepSeek R1 一樣思考更深入

鴻煊的學(xué)習(xí)筆記 ? 328瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

首次全面復(fù)盤AI Agents記憶系統(tǒng)：3大類，6種操作！ 1天前發(fā)布
一篇多模態(tài)大模型推理技術(shù)最新綜述 2025-05-06 00:41:18發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實(shí)戰(zhàn)教程 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

2025年最值得關(guān)注的十大多模態(tài)大語(yǔ)言模型！ 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復(fù)

上一篇：一篇多模態(tài)大模型推理技術(shù)最新綜述

下一篇：首次全面復(fù)盤AI Agents記憶系統(tǒng)：3大類，6種操作！

社區(qū)精華內(nèi)容

目錄

<cite id="kp8oe"><track id="kp8oe"></track></cite>