從底層重構(gòu)強化學(xué)習(xí)訓(xùn)練框架,阿里高德開源新方法:拋棄替代損失函數(shù),僅需優(yōu)化原始目標(biāo)
拋棄替代損失函數(shù),僅需優(yōu)化原始目標(biāo), 強化學(xué)習(xí)新范式來了:
消除critic和reference模型,避免KL散度約束;解決優(yōu)勢函數(shù)和梯度估計兩個偏差。
來自阿里-高德地圖的團隊提出了一種相當(dāng)簡單的強化學(xué)習(xí)訓(xùn)練新方法:組策略梯度優(yōu)化GPG (Group Policy Gradient)。
GPG開創(chuàng)性地從底層重構(gòu)強化學(xué)習(xí)訓(xùn)練框架,僅需優(yōu)化原始目標(biāo),解決已有方法偏差,提高訓(xùn)練效率。革新強化學(xué)習(xí)訓(xùn)練流程,推動智能體性能突破。
在實驗中,GPG在單模態(tài)和多模態(tài)兩類任務(wù)中表現(xiàn)遙遙領(lǐng)先,其極簡架構(gòu)與高性能表現(xiàn),有望成為下一代基礎(chǔ)模型訓(xùn)練的關(guān)鍵方法。
以下是更多GPG有關(guān)細(xì)節(jié)。
背景介紹
近年來,以O(shè)penAI和DeepSeek R1為代表的LLMs模型表現(xiàn)亮眼,深究成功背后,是強化微調(diào)技術(shù)(RFT)聯(lián)合現(xiàn)有強化學(xué)習(xí)方法(如PPO、GPPO)在激勵模型構(gòu)建嚴(yán)謹(jǐn)?shù)耐评礞溕习l(fā)揮了關(guān)鍵作用。
但在面對高昂的訓(xùn)練成本與性能平衡,主流方法PPO也陷入巨大瓶頸,與此同時,其他研究團隊也在嘗試使用ReMax、GRPO等簡化訓(xùn)練流程,并在性能上取得了很大的突破,但他們都依然存在一些問題。
研究團隊認(rèn)為,當(dāng)前針對RL算法的優(yōu)化都在圍繞替代損失函數(shù)展開,但兩個核心問題始終懸而未決:
1.能否繞過替代策略,直接優(yōu)化原始目標(biāo)函數(shù)?2.如何最大限度簡化學(xué)習(xí)策略的設(shè)計?
由此,團隊提出了GPG,其核心創(chuàng)新包括:
- 直接目標(biāo)優(yōu)化:摒棄傳統(tǒng)替代損失函數(shù)設(shè)計,直接優(yōu)化原始強化學(xué)習(xí)目標(biāo),突破算法效率瓶頸。
- 極簡訓(xùn)練架構(gòu):無需評論模型和參考模型支持,擺脫分布約束,為模型擴展性提供更大空間。
- 精準(zhǔn)梯度估計技術(shù) (AGE):首次揭示現(xiàn)有方法的獎勵偏差問題,提出輕量化且高精度的梯度估計方案,顯著提升策略穩(wěn)定性。
- 單模態(tài)多模態(tài)任務(wù)SOTA驗證 :在數(shù)學(xué)推理、視覺理解、跨模態(tài)推理等任務(wù)中,GPG性能全面超越現(xiàn)有方法,驗證其通用性與魯棒性。
組策略梯度GPG方法
方法對比
各種強化學(xué)習(xí)方法的比較,作者以最簡單的形式解釋:
下面是GPG方法和已有RL方法各個模塊的對比:
GPG方法
GPG旨在解決在沒有價值模型的情況下,策略梯度估計中的高方差問題。通過利用group-level的獎勵 ,GPG穩(wěn)定了訓(xùn)練過程并增強了強化學(xué)習(xí)訓(xùn)練的魯棒性。
具體而言,GPG利用每個Group內(nèi)的平均獎勵來歸一化獎勵,從而有效降低方差。這個方法可以移除傳統(tǒng)的價值模型,從而簡化了訓(xùn)練過程并提高了計算效率。 GPG的名稱反映了作者方法核心機制,即利用group-level的平均獎勵來穩(wěn)定和優(yōu)化學(xué)習(xí)。
GPG的核心優(yōu)化目標(biāo)定義為:
作者提出的GPG方法通過組內(nèi)優(yōu)勢函數(shù)計算和梯度校正機制實現(xiàn)了高效穩(wěn)定的策略優(yōu)化。在優(yōu)勢函數(shù)設(shè)計上,采用組內(nèi)獎勵均值歸一化方法:
其中可根據(jù)任務(wù)特性靈活選擇std或保持為1,這種設(shè)計有效抑制了異常值干擾。對于數(shù)學(xué)推理等二元獎勵場景(正確1.0/錯誤0.0),該方法展現(xiàn)出良好的適應(yīng)性。
現(xiàn)有RL方法中的兩個bias
優(yōu)勢函數(shù)中的bias
GRPO方法的優(yōu)勢函數(shù)中,,這部分是PG方法中的state部分,這表明GRPO優(yōu)勢函數(shù)明確引入了獎勵偏差。DR.GRPO方法
,但是作者發(fā)現(xiàn)它無法明顯超過GRPO方法。見下表:
組內(nèi)樣本全對全錯時,引入梯度估計的bias
當(dāng)一個組內(nèi)的樣本,模型預(yù)測全對或全錯則會引入對梯度估計的bias。給定批量大小為的訓(xùn)練批次,設(shè)第個樣本的梯度表示為
。
不失一般性,假設(shè)批次中的前個模型輸出的示例都正確或錯誤,標(biāo)準(zhǔn)反向傳播(BP)算法估計梯度為:
。然而,前
個示例不適用于梯度估計,并貢獻(xiàn)零梯度。
△圖 1(左)在一個組中,所有獎勵都是0的簡單問題的比例和所有獎勵都是1的困難問題的比例。(右)獎勵在各步驟間的標(biāo)準(zhǔn)差。
針對組內(nèi)全對/全錯樣本的梯度估計bias問題,GPG創(chuàng)新性地引入動態(tài)梯度校正因子。通過公式自動調(diào)節(jié)有效樣本權(quán)重,其中
為批次大小,
為無效樣本數(shù)。
實驗表明該機制可使模型準(zhǔn)確率從43.9%提升至47.8%,顯著改善訓(xùn)練穩(wěn)定性。
實驗
在單模態(tài)數(shù)據(jù)集上的結(jié)果
在多模態(tài)數(shù)據(jù)集上的結(jié)果
結(jié)論
在本文中,作者介紹了GPG,它有效地解決了強化微調(diào)方法(如PPO和GRPO)中現(xiàn)有的關(guān)鍵挑戰(zhàn)。
通過將基于組內(nèi)的決策動態(tài)直接納入標(biāo)準(zhǔn)的PG方法,GPG簡化了訓(xùn)練過程,并顯著減少了計算開銷,而不削弱模型效果。這一突破為訓(xùn)練能夠進行復(fù)雜推理的先進LLM提供了更高效的框架,從而為更具資源效率和可擴展性的人工智能系統(tǒng)做出了貢獻(xiàn)。
此外,團隊將本文代碼全面開源,希望促進技術(shù)透明化發(fā)展,也鼓勵更多人參與到該項工作中來。
論文鏈接:https://arxiv.org/pdf/2504.02546代碼鏈接:https://github.com/AMAP-ML/GPG