通義實(shí)驗(yàn)室新研究:大模型自己「扮演」搜索引擎,提升推理能力無需搜索API
強(qiáng)化學(xué)習(xí)(RL)+真實(shí)搜索引擎,可以有效提升大模型檢索-推理能力。
但問題來了:
一方面,搜索引擎返回的文檔質(zhì)量難以預(yù)測,給訓(xùn)練過程帶來了噪音和不穩(wěn)定性。
另一方面,RL訓(xùn)練需要頻繁部署,會產(chǎn)生大量API開銷,嚴(yán)重限制可擴(kuò)展性。
現(xiàn)在,來自阿里通義實(shí)驗(yàn)室的解決方案公開了:開源ZeroSearch,提供了一種無需與真實(shí)搜索引擎交互的強(qiáng)化學(xué)習(xí)框架。
實(shí)驗(yàn)表明,ZeroSearch僅需3B參數(shù)的LLM作為檢索模塊,即可有效提升搜索能力,節(jié)省了高昂API成本。
ZeroSearch讓LLM“自給自足”實(shí)現(xiàn)搜索進(jìn)化
研究團(tuán)隊(duì)用模擬搜索環(huán)境+漸進(jìn)式抗噪訓(xùn)練,讓LLM不再依賴昂貴搜索引擎API。
輕量微調(diào):把LLM變成“搜索引擎模擬器”
用少量標(biāo)注數(shù)據(jù)微調(diào)LLM,使其能按指令生成兩種文檔——有用結(jié)果和噪聲干擾。
通過收集與真實(shí)搜索引擎交互的數(shù)據(jù),ZeroSearch對LLM進(jìn)行輕量級監(jiān)督微調(diào)。
在這個過程中,模型學(xué)會生成與真實(shí)搜索引擎風(fēng)格相似的文檔,同時能夠根據(jù)提示詞生成相關(guān)或噪聲文檔。
這種能力使得模型在訓(xùn)練過程中能夠動態(tài)調(diào)整文檔質(zhì)量,從而更好地模擬真實(shí)檢索場景。
課程化抗噪訓(xùn)練:像打游戲升級一樣練模型
訓(xùn)練初期返回高質(zhì)文檔,后期逐漸混入噪聲(噪聲比例按指數(shù)曲線上升)。
ZeroSearch引入了課程式學(xué)習(xí)機(jī)制,逐步降低生成文檔的質(zhì)量,使模型從簡單的檢索場景逐步過渡到更具挑戰(zhàn)性的任務(wù)。
這種策略不僅提升了模型的推理能力,還顯著增強(qiáng)了訓(xùn)練的穩(wěn)定性和效果。
隨著訓(xùn)練的進(jìn)行,模型逐漸適應(yīng)更復(fù)雜的檢索任務(wù),最終能夠在高質(zhì)量和低質(zhì)量文檔中找到平衡。
強(qiáng)化學(xué)習(xí)閉環(huán):自產(chǎn)自銷的搜索生態(tài)
ZeroSearch通過模擬搜索引擎,完全消除了與真實(shí)搜索引擎交互的API費(fèi)用,使得大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練變得更加經(jīng)濟(jì)可行。
并且,ZeroSearch兼容多種強(qiáng)化學(xué)習(xí)算法,包括PPO(Proximal Policy Optimization)和GRPO(Group Relative Policy Optimization)。
這些算法為模型提供了不同的優(yōu)化策略,使得ZeroSearch能夠在不同的模型和任務(wù)中表現(xiàn)出色。
實(shí)驗(yàn)表明,GRPO在訓(xùn)練穩(wěn)定性方面表現(xiàn)更好,而PPO則在某些任務(wù)中提供了更高的靈活性。
實(shí)驗(yàn)結(jié)果及結(jié)論
ZeroSearch的零API成本優(yōu)勢不僅體現(xiàn)在經(jīng)濟(jì)上,還體現(xiàn)在訓(xùn)練的靈活性和可擴(kuò)展性上。
ZeroSearch vs. 現(xiàn)有方法
在圖中,我們可以清晰地看到ZeroSearch在多個問答數(shù)據(jù)集上的表現(xiàn)。
無論是單跳(Single-Hop)還是多跳(Multi-Hop)問答任務(wù),ZeroSearch都顯著優(yōu)于現(xiàn)有的基線方法,包括直接提示、RAG和Search-R1等。
這表明ZeroSearch不僅在簡單任務(wù)中表現(xiàn)出色,還能在復(fù)雜的多跳問答任務(wù)中發(fā)揮強(qiáng)大的檢索能力。
上圖展示了ZeroSearch和Search-R1(使用真實(shí)搜索引擎)在LLaMA-3.2-3B模型上的獎勵曲線對比。
ZeroSearch的學(xué)習(xí)曲線更加平滑且最終性能優(yōu)于Search-R1,表明其在訓(xùn)練過程中的穩(wěn)定性和優(yōu)越性。
不同模型規(guī)模的性能
可以看到使用7B參數(shù)的檢索模塊就能達(dá)到與谷歌搜索相當(dāng)的性能,而14B參數(shù)的檢索模塊甚至能夠超越谷歌搜索。
這表明ZeroSearch不僅適用于小型模型,還能在大型模型中發(fā)揮更大的潛力,為LLM的檢索能力提升提供了廣闊的空間。
強(qiáng)化學(xué)習(xí)算法的兼容性
比較了在Qwen-2.5-3B和LLaMA-3.2-3B模型上,使用PPO和GRPO算法的ZeroSearch性能,可以看到ZeroSearch與PPO和GRPO兩種強(qiáng)化學(xué)習(xí)算法的兼容性。
實(shí)驗(yàn)結(jié)果表明,GRPO在訓(xùn)練穩(wěn)定性方面表現(xiàn)更好,而PPO則在某些任務(wù)中提供了更高的靈活性。
這表明ZeroSearch能夠適應(yīng)不同的強(qiáng)化學(xué)習(xí)算法,為研究人員提供了更多的選擇。
通過模擬搜索引擎,ZeroSearch完全消除了API成本,同時通過課程式學(xué)習(xí)策略逐步提升模型的推理能力。
論文第一作者孫浩目前是北京大學(xué)智能學(xué)院四年級博士研究生,研究方向聚焦于檢索增強(qiáng)的大語言模型與智能體,師從張巖教授。
論文鏈接:https://arxiv.org/abs/2505.04588
項(xiàng)目主頁: https://alibaba-nlp.github.io/ZeroSearch