自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

通義實(shí)驗(yàn)室新研究:大模型自己「扮演」搜索引擎,提升推理能力無需搜索API

人工智能 新聞
來自阿里通義實(shí)驗(yàn)室的解決方案公開了:開源ZeroSearch,提供了一種無需與真實(shí)搜索引擎交互的強(qiáng)化學(xué)習(xí)框架。

強(qiáng)化學(xué)習(xí)(RL)+真實(shí)搜索引擎,可以有效提升大模型檢索-推理能力。

但問題來了:

一方面,搜索引擎返回的文檔質(zhì)量難以預(yù)測,給訓(xùn)練過程帶來了噪音和不穩(wěn)定性。

另一方面,RL訓(xùn)練需要頻繁部署,會產(chǎn)生大量API開銷,嚴(yán)重限制可擴(kuò)展性。

現(xiàn)在,來自阿里通義實(shí)驗(yàn)室的解決方案公開了:開源ZeroSearch,提供了一種無需與真實(shí)搜索引擎交互的強(qiáng)化學(xué)習(xí)框架。

實(shí)驗(yàn)表明,ZeroSearch僅需3B參數(shù)的LLM作為檢索模塊,即可有效提升搜索能力,節(jié)省了高昂API成本。

圖片

ZeroSearch讓LLM“自給自足”實(shí)現(xiàn)搜索進(jìn)化

研究團(tuán)隊(duì)用模擬搜索環(huán)境+漸進(jìn)式抗噪訓(xùn)練,讓LLM不再依賴昂貴搜索引擎API。

圖片

輕量微調(diào):把LLM變成“搜索引擎模擬器”

用少量標(biāo)注數(shù)據(jù)微調(diào)LLM,使其能按指令生成兩種文檔——有用結(jié)果噪聲干擾。

圖片

通過收集與真實(shí)搜索引擎交互的數(shù)據(jù),ZeroSearch對LLM進(jìn)行輕量級監(jiān)督微調(diào)。

在這個過程中,模型學(xué)會生成與真實(shí)搜索引擎風(fēng)格相似的文檔,同時能夠根據(jù)提示詞生成相關(guān)或噪聲文檔。

這種能力使得模型在訓(xùn)練過程中能夠動態(tài)調(diào)整文檔質(zhì)量,從而更好地模擬真實(shí)檢索場景。

課程化抗噪訓(xùn)練:像打游戲升級一樣練模型

訓(xùn)練初期返回高質(zhì)文檔,后期逐漸混入噪聲(噪聲比例按指數(shù)曲線上升)。

ZeroSearch引入了課程式學(xué)習(xí)機(jī)制,逐步降低生成文檔的質(zhì)量,使模型從簡單的檢索場景逐步過渡到更具挑戰(zhàn)性的任務(wù)。

這種策略不僅提升了模型的推理能力,還顯著增強(qiáng)了訓(xùn)練的穩(wěn)定性和效果。

圖片

圖片

隨著訓(xùn)練的進(jìn)行,模型逐漸適應(yīng)更復(fù)雜的檢索任務(wù),最終能夠在高質(zhì)量和低質(zhì)量文檔中找到平衡。

強(qiáng)化學(xué)習(xí)閉環(huán):自產(chǎn)自銷的搜索生態(tài)

ZeroSearch通過模擬搜索引擎,完全消除了與真實(shí)搜索引擎交互的API費(fèi)用,使得大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練變得更加經(jīng)濟(jì)可行。

并且,ZeroSearch兼容多種強(qiáng)化學(xué)習(xí)算法,包括PPO(Proximal Policy Optimization)和GRPO(Group Relative Policy Optimization)。

這些算法為模型提供了不同的優(yōu)化策略,使得ZeroSearch能夠在不同的模型和任務(wù)中表現(xiàn)出色。

實(shí)驗(yàn)表明,GRPO在訓(xùn)練穩(wěn)定性方面表現(xiàn)更好,而PPO則在某些任務(wù)中提供了更高的靈活性。

實(shí)驗(yàn)結(jié)果及結(jié)論

ZeroSearch的零API成本優(yōu)勢不僅體現(xiàn)在經(jīng)濟(jì)上,還體現(xiàn)在訓(xùn)練的靈活性和可擴(kuò)展性上。

ZeroSearch vs. 現(xiàn)有方法

圖片

在圖中,我們可以清晰地看到ZeroSearch在多個問答數(shù)據(jù)集上的表現(xiàn)。

無論是單跳(Single-Hop)還是多跳(Multi-Hop)問答任務(wù),ZeroSearch都顯著優(yōu)于現(xiàn)有的基線方法,包括直接提示、RAG和Search-R1等。

這表明ZeroSearch不僅在簡單任務(wù)中表現(xiàn)出色,還能在復(fù)雜的多跳問答任務(wù)中發(fā)揮強(qiáng)大的檢索能力。

圖片

上圖展示了ZeroSearch和Search-R1(使用真實(shí)搜索引擎)在LLaMA-3.2-3B模型上的獎勵曲線對比。

ZeroSearch的學(xué)習(xí)曲線更加平滑且最終性能優(yōu)于Search-R1,表明其在訓(xùn)練過程中的穩(wěn)定性和優(yōu)越性。

不同模型規(guī)模的性能

圖片

可以看到使用7B參數(shù)的檢索模塊就能達(dá)到與谷歌搜索相當(dāng)的性能,而14B參數(shù)的檢索模塊甚至能夠超越谷歌搜索。

這表明ZeroSearch不僅適用于小型模型,還能在大型模型中發(fā)揮更大的潛力,為LLM的檢索能力提升提供了廣闊的空間。

強(qiáng)化學(xué)習(xí)算法的兼容性

圖片

比較了在Qwen-2.5-3B和LLaMA-3.2-3B模型上,使用PPO和GRPO算法的ZeroSearch性能,可以看到ZeroSearch與PPO和GRPO兩種強(qiáng)化學(xué)習(xí)算法的兼容性。

實(shí)驗(yàn)結(jié)果表明,GRPO在訓(xùn)練穩(wěn)定性方面表現(xiàn)更好,而PPO則在某些任務(wù)中提供了更高的靈活性。

這表明ZeroSearch能夠適應(yīng)不同的強(qiáng)化學(xué)習(xí)算法,為研究人員提供了更多的選擇。

通過模擬搜索引擎,ZeroSearch完全消除了API成本,同時通過課程式學(xué)習(xí)策略逐步提升模型的推理能力。

論文第一作者孫浩目前是北京大學(xué)智能學(xué)院四年級博士研究生,研究方向聚焦于檢索增強(qiáng)的大語言模型與智能體,師從張巖教授。

論文鏈接:https://arxiv.org/abs/2505.04588

項(xiàng)目主頁: https://alibaba-nlp.github.io/ZeroSearch

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-02-28 01:00:00

2011-06-20 18:23:06

SEO

2025-05-09 08:31:11

2023-04-10 08:00:00

2019-10-31 08:55:07

搜索引擎工具

2009-09-22 16:23:52

搜索引擎

2013-10-21 17:42:39

百會搜索贏家

2017-08-07 08:15:31

搜索引擎倒排

2020-03-20 10:14:49

搜索引擎倒排索引

2011-05-10 15:00:45

SEO

2022-10-08 09:13:18

搜索引擎?站

2012-09-07 13:22:21

搜索搜狗

2010-04-20 11:43:46

2009-02-19 09:41:36

搜索引擎搜狐百度

2013-01-07 10:32:46

平板搜索引擎機(jī)遇

2024-08-20 14:52:12

2009-09-21 16:59:04

搜索引擎

2020-12-03 14:49:13

AI 技術(shù) 人工智能

2009-07-30 10:40:56

搜索引擎優(yōu)化網(wǎng)站

2023-02-08 10:45:23

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號