自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Qwen3 低成本手撕Search-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練框架

發(fā)布于 2025-5-12 01:17
瀏覽
0收藏

OpenAI-o1和DeepSeek-R1,通過獎勵驅(qū)動的學(xué)習(xí),而無需依賴于明確的逐步監(jiān)督,在邏輯推理和迭代推理方面取得了顯著的成果。


使用RL訓(xùn)練能夠更有效地搜索相關(guān)信息的策略模型。例如,Search-R1、R1-Searcher和ReSearch等模型都嘗試通過強(qiáng)化學(xué)習(xí)來提升模型的搜索能力。


這些方法通常使用靜態(tài)的本地文本語料庫,如維基百科,無法捕捉到現(xiàn)實(shí)世界交互的復(fù)雜性。

DeepResearcher引入了與商業(yè)搜索引擎(如谷歌)的實(shí)時交互,使得模型能夠在接近真實(shí)世界網(wǎng)絡(luò)搜索的環(huán)境中進(jìn)行訓(xùn)練。

但它面臨著重大挑戰(zhàn):

  • 一是搜索引擎返回的文檔質(zhì)量不可預(yù)測,這給訓(xùn)練過程帶來了噪聲和不穩(wěn)定性;
  • 二是強(qiáng)化學(xué)習(xí)訓(xùn)練需要頻繁的rollout,可能涉及數(shù)十萬次搜索請求,這導(dǎo)致了巨大的API費(fèi)用,嚴(yán)重限制了系統(tǒng)的可擴(kuò)展性。

一、ZEROSEARCH核心思想

  • ZEROSEARCH利用LLMs在大規(guī)模預(yù)訓(xùn)練過程中所積累的豐富世界知識,使其能夠根據(jù)搜索查詢生成相關(guān)文檔。通過輕量級的監(jiān)督式微調(diào),即使是相對較小的LLMs也能夠有效地模擬真實(shí)搜索引擎的行為。
  • 通過模擬搜索引擎的交互過程來訓(xùn)練策略模型,使其能夠在沒有真實(shí)搜索引擎的情況下有效地進(jìn)行信息檢索和推理。
  • 其創(chuàng)新點(diǎn)在于,通過控制文檔質(zhì)量,解決搜索引擎返回文檔質(zhì)量不可預(yù)測的問題,并且消除了API費(fèi)用,極大地提高了訓(xùn)練的可擴(kuò)展性。

二、架構(gòu)介紹

Qwen3 低成本手撕Search-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練框架-AI.x社區(qū)

  • ZEROSEARCH的整體架構(gòu)圍繞著一個強(qiáng)化學(xué)習(xí)框架展開,其核心組件包括:

模擬LLMs在訓(xùn)練過程中扮演著搜索引擎的角色,它接收策略模型生成的搜索查詢,并返回相應(yīng)的文檔,這些文檔可以是有用的,也可以是噪聲的,具體取決于訓(xùn)練階段和課程策略的設(shè)置。

獎勵模型根據(jù)策略模型生成的答案與真實(shí)答案之間的匹配程度給出獎勵信號,以驅(qū)動策略模型的學(xué)習(xí)過程。

參考模型則用于計算策略模型輸出與參考輸出之間的差異,從而為策略模型的更新提供指導(dǎo)。

策略模型是需要優(yōu)化的對象,負(fù)責(zé)根據(jù)輸入的查詢生成搜索請求,并基于檢索到的信息生成最終答案。

一個策略模型(policy model)

一個參考模型(reference model)

一個獎勵模型(reward model)

一個模擬LLMs(simulation LLM)

三、技術(shù)細(xì)節(jié)

  • 強(qiáng)化學(xué)習(xí)目標(biāo)

ZEROSEARCH的優(yōu)化目標(biāo)是最大化策略模型在給定查詢下生成正確答案的期望獎勵,同時最小化策略模型輸出與參考模型輸出之間的差異。

具體來說,優(yōu)化目標(biāo)可以表示為:

Qwen3 低成本手撕Search-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練框架-AI.x社區(qū)

Qwen3 低成本手撕Search-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練框架-AI.x社區(qū)

  • 訓(xùn)練模板

內(nèi)部推理階段(??<think>...</think>??)

搜索查詢階段(??<search>...</search>??)

答案生成階段(??<answer>...</answer>??)。

  • ZEROSEARCH采用了一個多輪交互模板,將策略模型的輸出分為三個階段:
  • 這種結(jié)構(gòu)化的輸出格式有助于模型更好地組織推理過程,并使訓(xùn)練過程更加透明和可控。
  • 課程學(xué)習(xí)策略,是ZEROSEARCH的一個關(guān)鍵創(chuàng)新點(diǎn):

通過逐漸增加生成文檔的噪聲比例,模擬越來越復(fù)雜的檢索場景,從而逐步提升策略模型的推理能力。

這種策略類似于人類學(xué)習(xí)過程中的逐步引導(dǎo),有助于模型更好地適應(yīng)不同難度的任務(wù)。

  • 損失掩碼機(jī)制

在訓(xùn)練過程中,ZEROSEARCH對檢索到的文檔token應(yīng)用損失掩碼,避免了這些外部生成的token對策略模型更新過程的干擾。

這一機(jī)制有助于穩(wěn)定訓(xùn)練過程,并提高模型的最終性能。

四、整體流程

  • 數(shù)據(jù)準(zhǔn)備:首先,收集與真實(shí)搜索引擎交互的軌跡數(shù)據(jù),并將其標(biāo)記為正樣本或負(fù)樣本,用于后續(xù)的輕量級監(jiān)督式微調(diào)。
  • 輕量級監(jiān)督式微調(diào):使用標(biāo)記好的軌跡數(shù)據(jù)對LLMs進(jìn)行微調(diào),使其能夠根據(jù)搜索查詢生成有用或噪聲文檔。
  • 策略模型初始化:初始化策略模型,并將其與模擬LLMs和獎勵模型連接起來,形成完整的強(qiáng)化學(xué)習(xí)框架。
  • 訓(xùn)練

在訓(xùn)練過程中,策略模型根據(jù)輸入的查詢生成搜索請求,模擬LLMs根據(jù)搜索請求生成文檔,策略模型根據(jù)生成的文檔進(jìn)行推理并生成答案。

獎勵模型根據(jù)答案的準(zhǔn)確性給出獎勵信號,策略模型根據(jù)獎勵信號進(jìn)行更新。

隨著訓(xùn)練的進(jìn)行,逐漸增加生成文檔的噪聲比例,以提升策略模型的推理能力。

  • 模型評估:在訓(xùn)練完成后,使用各種問答數(shù)據(jù)集對模型的性能進(jìn)行評估,比較其與真實(shí)搜索引擎和其他基線方法的性能差異。

舉個例子:

假設(shè)問題是“誰是《冰與火之歌》系列小說的作者?”

  • 策略模型首先在??<think>...</think>??階段進(jìn)行內(nèi)部推理,可能會思考“我需要找到《冰與火之歌》系列小說的作者是誰”。
  • 然后,在??<search>...</search>??階段,策略模型生成一個搜索查詢,如“《冰與火之歌》作者”。模擬LLMs接收到這個查詢后,生成一些文檔,這些文檔可能是有用的,也可能是噪聲的,具體取決于當(dāng)前的課程階段。
  • 策略模型根據(jù)這些文檔在??<answer>...</answer>??階段生成最終答案,如“喬治·R·馬丁”。
  • 獎勵模型根據(jù)生成的答案與真實(shí)答案之間的匹配程度給出獎勵信號,策略模型根據(jù)這個獎勵信號進(jìn)行更新,以提升其在后續(xù)任務(wù)中的性能。

4.1 輕量級監(jiān)督式微調(diào)的詳細(xì)步驟

  • 數(shù)據(jù)收集

通過讓LLMs與真實(shí)搜索引擎進(jìn)行多輪交互,收集一系列的交互軌跡。

這些軌跡包括查詢、搜索引擎返回的文檔以及LLMs基于這些文檔生成的答案。

  • 數(shù)據(jù)標(biāo)注

根據(jù)LLMs生成的答案是否正確,將這些軌跡標(biāo)注為正樣本或負(fù)樣本。

如果答案正確,則將該軌跡標(biāo)記為正樣本,表示檢索到的文檔是有用的;

如果答案錯誤,則將該軌跡標(biāo)記為負(fù)樣本,表示檢索到的文檔是噪聲。

  • 提取查詢-文檔對

從正負(fù)樣本軌跡中提取查詢-文檔對。

這些查詢-文檔對將用于后續(xù)的微調(diào)過程。

  • 設(shè)計微調(diào)提示

Qwen3 低成本手撕Search-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練框架-AI.x社區(qū)

為了使LLMs能夠生成有用或噪聲文檔,設(shè)計微調(diào)提示。

在提示中加入“有用”或“噪聲”等關(guān)鍵詞,并將輸入問題及其對應(yīng)答案納入提示中,以拓寬LLMs的知識邊界。

  • 微調(diào)過程

使用提取的查詢-文檔對和設(shè)計好的微調(diào)提示對LLMs進(jìn)行輕量級監(jiān)督式微調(diào)。

在微調(diào)過程中,調(diào)整LLMs的參數(shù),使其能夠根據(jù)搜索查詢生成符合提示要求的文檔。

  • 評估微調(diào)效果

通過一些驗(yàn)證數(shù)據(jù)集評估微調(diào)后的LLMs的性能,確保其能夠有效地模擬真實(shí)搜索引擎的行為,并且能夠根據(jù)提示生成有用或噪聲文檔。

4.2 基于課程的rollout策略的詳細(xì)步驟

  • 初始化課程參數(shù)

設(shè)置初始噪聲概率ps、最終噪聲概率pe以及指數(shù)基數(shù)b等課程參數(shù)。

這些參數(shù)將決定在訓(xùn)練過程中生成文檔的噪聲比例如何變化。

  • 策略模型生成搜索查詢

在每次rollout過程中,策略模型根據(jù)輸入的查詢生成一個或多個搜索查詢。

這些查詢將被發(fā)送到模擬LLMs。

  • 模擬LLMs生成文檔

模擬LLMs接收到搜索查詢后,根據(jù)當(dāng)前的課程階段生成相應(yīng)的文檔。

在訓(xùn)練初期,生成的文檔主要是有用的,隨著訓(xùn)練的進(jìn)行,逐漸增加噪聲文檔的比例。

  • 策略模型進(jìn)行推理

策略模型根據(jù)模擬LLMs返回的文檔進(jìn)行推理,并生成最終答案。

在推理過程中,策略模型可能會根據(jù)需要進(jìn)行多輪搜索。

  • 獎勵模型給出獎勵信號

獎勵模型根據(jù)策略模型生成的答案與真實(shí)答案之間的匹配程度給出獎勵信號。

如果答案正確,獎勵信號較高;如果答案錯誤,獎勵信號較低。

  • 更新策略模型

根據(jù)獎勵信號和課程參數(shù),更新策略模型的參數(shù)。

在更新過程中,策略模型將學(xué)習(xí)如何在不同難度的檢索場景中生成更準(zhǔn)確的答案。

  • 調(diào)整課程階段

隨著訓(xùn)練的進(jìn)行,逐步調(diào)整課程參數(shù),增加生成文檔的噪聲比例。

這將使策略模型逐漸適應(yīng)更具挑戰(zhàn)性的檢索場景,提升其推理能力。

4.3 訓(xùn)練算法的細(xì)節(jié)

  • 選擇合適的強(qiáng)化學(xué)習(xí)算法

根據(jù)具體任務(wù)和模型的特點(diǎn),選擇合適的強(qiáng)化學(xué)習(xí)算法,如PPO、GRPO或Reinforce++等。

  • rollout過程

在rollout過程中,策略模型根據(jù)輸入的查詢生成搜索查詢,模擬LLMs根據(jù)搜索查詢生成文檔,策略模型根據(jù)生成的文檔進(jìn)行推理并生成答案。

這個過程將產(chǎn)生一系列的交互數(shù)據(jù),包括查詢、文檔、答案以及對應(yīng)的獎勵信號。

  • 計算損失函數(shù)

策略損失:衡量策略模型輸出與參考模型輸出之間的差異,

價值損失:衡量價值模型預(yù)測與真實(shí)獎勵之間的差異,

熵?fù)p失:用于鼓勵策略模型的探索行為。

根據(jù)策略模型的輸出和獎勵信號,計算損失函數(shù)。

損失函數(shù)通常包括策略損失、價值損失以及熵?fù)p失等。

  • 更新模型參數(shù)

根據(jù)計算得到的損失函數(shù),使用反向傳播算法更新策略模型、參考模型和獎勵模型的參數(shù)。

在更新過程中,應(yīng)用梯度裁剪等技術(shù),以避免梯度爆炸或梯度消失的問題。

  • 重復(fù)訓(xùn)練過程

ZEROSEARCH優(yōu)點(diǎn)

Qwen3 低成本手撕Search-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練框架-AI.x社區(qū)

  • ZEROSEARCH框架通過輕量級監(jiān)督式微調(diào)將LLMs轉(zhuǎn)變?yōu)橐粋€檢索模塊,并采用基于課程的rollout策略逐步提升策略模型的推理能力,有效地解決了現(xiàn)有基于強(qiáng)化學(xué)習(xí)的LLMs搜索能力訓(xùn)練方法中存在的搜索引擎返回文檔質(zhì)量不可預(yù)測和API費(fèi)用高昂的問題。
  • ZEROSEARCH在多個問答數(shù)據(jù)集上均取得了優(yōu)異的性能,超越了真實(shí)搜索引擎和其他基線方法。
  • ZEROSEARCH還具有良好的可擴(kuò)展性,能夠適應(yīng)不同大小和類型的LLMs,并且與多種強(qiáng)化學(xué)習(xí)算法兼容。
  • ZEROSEARCH在部署模擬LLMs時需要一定的GPU資源,但其成本遠(yuǎn)低于商業(yè)搜索引擎API費(fèi)用,具有較高的經(jīng)濟(jì)可行性。
  • ZEROSEARCH可以應(yīng)用于其他類型的自然語言處理任務(wù),如文本摘要、機(jī)器翻譯等,以充分發(fā)揮其在提升LLMs性能方面的潛力。

Qwen3 低成本手撕Search-R1的強(qiáng)化學(xué)習(xí)訓(xùn)練框架-AI.x社區(qū)

??https://arxiv.org/pdf/2505.04588??

??https://github.com/Alibaba-NLP/ZeroSearch??

本文轉(zhuǎn)載自???CourseAI???,作者:CourseAI

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦