自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="tlaf5"><rp id="tlaf5"><form id="tlaf5"></form></rp></cite>

<cite id="tlaf5"></cite><cite id="tlaf5"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

通義實(shí)驗(yàn)室新研究：大模型自己「扮演」搜索引擎，提升推理能力無需搜索API

2025-05-19 08:47:00

人工智能新聞

來自阿里通義實(shí)驗(yàn)室的解決方案公開了：開源ZeroSearch，提供了一種無需與真實(shí)搜索引擎交互的強(qiáng)化學(xué)習(xí)框架。

強(qiáng)化學(xué)習(xí)（RL）+真實(shí)搜索引擎，可以有效提升大模型檢索-推理能力。

但問題來了：

一方面，搜索引擎返回的文檔質(zhì)量難以預(yù)測，給訓(xùn)練過程帶來了噪音和不穩(wěn)定性。

另一方面，RL訓(xùn)練需要頻繁部署，會產(chǎn)生大量API開銷，嚴(yán)重限制可擴(kuò)展性。

現(xiàn)在，來自阿里通義實(shí)驗(yàn)室的解決方案公開了：開源ZeroSearch，提供了一種無需與真實(shí)搜索引擎交互的強(qiáng)化學(xué)習(xí)框架。

實(shí)驗(yàn)表明，ZeroSearch僅需3B參數(shù)的LLM作為檢索模塊，即可有效提升搜索能力，節(jié)省了高昂API成本。

ZeroSearch讓LLM“自給自足”實(shí)現(xiàn)搜索進(jìn)化

研究團(tuán)隊(duì)用模擬搜索環(huán)境+漸進(jìn)式抗噪訓(xùn)練，讓LLM不再依賴昂貴搜索引擎API。

輕量微調(diào)：把LLM變成“搜索引擎模擬器”

用少量標(biāo)注數(shù)據(jù)微調(diào)LLM，使其能按指令生成兩種文檔——有用結(jié)果和噪聲干擾。

通過收集與真實(shí)搜索引擎交互的數(shù)據(jù)，ZeroSearch對LLM進(jìn)行輕量級監(jiān)督微調(diào)。

在這個過程中，模型學(xué)會生成與真實(shí)搜索引擎風(fēng)格相似的文檔，同時能夠根據(jù)提示詞生成相關(guān)或噪聲文檔。

這種能力使得模型在訓(xùn)練過程中能夠動態(tài)調(diào)整文檔質(zhì)量，從而更好地模擬真實(shí)檢索場景。

課程化抗噪訓(xùn)練：像打游戲升級一樣練模型

訓(xùn)練初期返回高質(zhì)文檔，后期逐漸混入噪聲（噪聲比例按指數(shù)曲線上升）。

ZeroSearch引入了課程式學(xué)習(xí)機(jī)制，逐步降低生成文檔的質(zhì)量，使模型從簡單的檢索場景逐步過渡到更具挑戰(zhàn)性的任務(wù)。

這種策略不僅提升了模型的推理能力，還顯著增強(qiáng)了訓(xùn)練的穩(wěn)定性和效果。

隨著訓(xùn)練的進(jìn)行，模型逐漸適應(yīng)更復(fù)雜的檢索任務(wù)，最終能夠在高質(zhì)量和低質(zhì)量文檔中找到平衡。

強(qiáng)化學(xué)習(xí)閉環(huán)：自產(chǎn)自銷的搜索生態(tài)

ZeroSearch通過模擬搜索引擎，完全消除了與真實(shí)搜索引擎交互的API費(fèi)用，使得大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練變得更加經(jīng)濟(jì)可行。

并且，ZeroSearch兼容多種強(qiáng)化學(xué)習(xí)算法，包括PPO（Proximal Policy Optimization）和GRPO（Group Relative Policy Optimization）。

這些算法為模型提供了不同的優(yōu)化策略，使得ZeroSearch能夠在不同的模型和任務(wù)中表現(xiàn)出色。

實(shí)驗(yàn)表明，GRPO在訓(xùn)練穩(wěn)定性方面表現(xiàn)更好，而PPO則在某些任務(wù)中提供了更高的靈活性。

實(shí)驗(yàn)結(jié)果及結(jié)論

ZeroSearch的零API成本優(yōu)勢不僅體現(xiàn)在經(jīng)濟(jì)上，還體現(xiàn)在訓(xùn)練的靈活性和可擴(kuò)展性上。

ZeroSearch vs. 現(xiàn)有方法

在圖中，我們可以清晰地看到ZeroSearch在多個問答數(shù)據(jù)集上的表現(xiàn)。

無論是單跳（Single-Hop）還是多跳（Multi-Hop）問答任務(wù)，ZeroSearch都顯著優(yōu)于現(xiàn)有的基線方法，包括直接提示、RAG和Search-R1等。

這表明ZeroSearch不僅在簡單任務(wù)中表現(xiàn)出色，還能在復(fù)雜的多跳問答任務(wù)中發(fā)揮強(qiáng)大的檢索能力。

上圖展示了ZeroSearch和Search-R1（使用真實(shí)搜索引擎）在LLaMA-3.2-3B模型上的獎勵曲線對比。

ZeroSearch的學(xué)習(xí)曲線更加平滑且最終性能優(yōu)于Search-R1，表明其在訓(xùn)練過程中的穩(wěn)定性和優(yōu)越性。

不同模型規(guī)模的性能

可以看到使用7B參數(shù)的檢索模塊就能達(dá)到與谷歌搜索相當(dāng)的性能，而14B參數(shù)的檢索模塊甚至能夠超越谷歌搜索。

這表明ZeroSearch不僅適用于小型模型，還能在大型模型中發(fā)揮更大的潛力，為LLM的檢索能力提升提供了廣闊的空間。

強(qiáng)化學(xué)習(xí)算法的兼容性

比較了在Qwen-2.5-3B和LLaMA-3.2-3B模型上，使用PPO和GRPO算法的ZeroSearch性能，可以看到ZeroSearch與PPO和GRPO兩種強(qiáng)化學(xué)習(xí)算法的兼容性。

實(shí)驗(yàn)結(jié)果表明，GRPO在訓(xùn)練穩(wěn)定性方面表現(xiàn)更好，而PPO則在某些任務(wù)中提供了更高的靈活性。

這表明ZeroSearch能夠適應(yīng)不同的強(qiáng)化學(xué)習(xí)算法，為研究人員提供了更多的選擇。

通過模擬搜索引擎，ZeroSearch完全消除了API成本，同時通過課程式學(xué)習(xí)策略逐步提升模型的推理能力。

論文第一作者孫浩目前是北京大學(xué)智能學(xué)院四年級博士研究生，研究方向聚焦于檢索增強(qiáng)的大語言模型與智能體，師從張巖教授。

論文鏈接：https://arxiv.org/abs/2505.04588

項(xiàng)目主頁： https://alibaba-nlp.github.io/ZeroSearch

責(zé)任編輯：張燕妮來源：量子位

強(qiáng)化學(xué)習(xí)模型開源

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="2z15h"></style>