自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

復(fù)旦:基于強化微調(diào)的統(tǒng)一多模態(tài)思維鏈獎勵模型

發(fā)布于 2025-5-13 00:27
瀏覽
0收藏

本文介紹了一種新的統(tǒng)一多模態(tài)鏈?zhǔn)剿季S獎勵模型,該模型通過強化微調(diào)方法實現(xiàn)了對復(fù)雜推理過程的學(xué)習(xí)和激勵。傳統(tǒng)的獎勵模型通常只能提供直接響應(yīng)或淺層推理,而新提出的模型能夠進行多層次、逐步的長鏈推理,從而提高了獎勵信號的準(zhǔn)確性和可靠性。該模型采用了探索驅(qū)動的強化微調(diào)方法,首先利用小規(guī)模圖像生成偏好數(shù)據(jù)來學(xué)習(xí)GPT-4o的推理過程,并將其用于模型的冷啟動;然后利用模型的先驗知識和泛化能力,準(zhǔn)備大規(guī)模的統(tǒng)一多模態(tài)偏好數(shù)據(jù)來引導(dǎo)模型在各種視覺任務(wù)中進行推理;最后使用群體相對策略優(yōu)化(GRPO)進行強化微調(diào),使模型能夠探索多樣化的推理路徑并優(yōu)化正確的解決方案。實驗結(jié)果表明,引入長鏈推理顯著增強了獎勵信號的準(zhǔn)確性。值得注意的是,在掌握長鏈推理后,模型還具有隱式推理能力,即使沒有明確的推理軌跡也能超越現(xiàn)有基準(zhǔn)線。

復(fù)旦:基于強化微調(diào)的統(tǒng)一多模態(tài)思維鏈獎勵模型-AI.x社區(qū)

該工作旨在將長鏈思考(CoT)推理納入獎勵模型的決策過程中,以增強獎勵信號的可靠性和魯棒性。然而,由于缺乏大規(guī)模CoT獎勵數(shù)據(jù),傳統(tǒng)的訓(xùn)練方法如監(jiān)督微調(diào)(SFT)仍具有高度挑戰(zhàn)性。因此,本文提出了統(tǒng)一多模態(tài)CoT獎勵模型(UNIFIEDREWARD-THINK),并采用了探索驅(qū)動的強化學(xué)習(xí)微調(diào)來激活和優(yōu)化視覺語言模型(VLM)的多維和分步長期推理能力。具體而言,該流程包括三個關(guān)鍵階段:冷啟動、拒絕采樣和相對策略優(yōu)化(GRPO)。

在冷啟動階段,使用少量經(jīng)過蒸餾的CoT獎勵數(shù)據(jù)來初始化獎勵模型,并教導(dǎo)其遵循結(jié)構(gòu)化的CoT推理格式。在拒絕采樣階段,利用大量統(tǒng)一偏好數(shù)據(jù)激發(fā)模型的一般化CoT推理能力,通過保留正確推理樣本進行拒絕采樣來進一步加強模型的CoT推理能力。最后,在GRPO階段,引入可驗證獎勵(format reward和accuracy reward)來引導(dǎo)模型的學(xué)習(xí),并采用GRPO強化學(xué)習(xí)微調(diào)來提高模型的CoT推理能力。

復(fù)旦:基于強化微調(diào)的統(tǒng)一多模態(tài)思維鏈獎勵模型-AI.x社區(qū)

復(fù)旦:基于強化微調(diào)的統(tǒng)一多模態(tài)思維鏈獎勵模型-AI.x社區(qū)

復(fù)旦:基于強化微調(diào)的統(tǒng)一多模態(tài)思維鏈獎勵模型-AI.x社區(qū)

該方法的主要創(chuàng)新在于采用了探索驅(qū)動的強化學(xué)習(xí)微調(diào)(GRPO)來進一步提高模型的CoT推理能力。此外,該方法還引入了可驗證獎勵機制,以確保模型生成的響應(yīng)既符合特定的推理結(jié)構(gòu),又準(zhǔn)確無誤地回答問題。

解決的問題

該方法主要解決了傳統(tǒng)訓(xùn)練方法中缺乏大規(guī)模CoT獎勵數(shù)據(jù)的問題,以及如何提高獎勵信號的可靠性和魯棒性的問題。通過采用統(tǒng)一多模態(tài)CoT獎勵模型和探索驅(qū)動的強化學(xué)習(xí)微調(diào),該方法能夠有效地激活和優(yōu)化VLM的多維和分步長期推理能力,從而提高模型的CoT推理能力和可靠性。

本文主要介紹了四個實驗,分別是圖像生成、視頻生成、圖像理解以及視頻理解任務(wù)的實驗。在這些實驗中,作者使用了多個數(shù)據(jù)集和獎勵模型,并進行了詳細的評估和比較分析。

第一個實驗是圖像生成任務(wù),作者使用了HPD、OIP、EvalMuse等數(shù)據(jù)集,并使用了統(tǒng)一獎勵模型來評估生成結(jié)果。結(jié)果顯示,作者的方法在所有測試樣本上都表現(xiàn)出了優(yōu)異的表現(xiàn)。

第二個實驗是視頻生成任務(wù),作者使用了VideoDPO和Text2Video-Human Preferences等數(shù)據(jù)集,并使用了統(tǒng)一獎勵模型來評估生成結(jié)果。結(jié)果顯示,作者的方法在所有測試樣本上都表現(xiàn)出了優(yōu)異的表現(xiàn)。

復(fù)旦:基于強化微調(diào)的統(tǒng)一多模態(tài)思維鏈獎勵模型-AI.x社區(qū)

第三個實驗是圖像理解任務(wù),作者從LLava-Critic-113K數(shù)據(jù)集中隨機抽取了30K個數(shù)據(jù),并使用了統(tǒng)一獎勵模型來評估理解結(jié)果。結(jié)果顯示,作者的方法在所有測試樣本上都表現(xiàn)出了優(yōu)異的表現(xiàn)。

第四個實驗是視頻理解任務(wù),作者使用了ShareGPTVideo-DPO數(shù)據(jù)集,并使用了統(tǒng)一獎勵模型來評估理解結(jié)果。結(jié)果顯示,作者的方法在所有測試樣本上都表現(xiàn)出了優(yōu)異的表現(xiàn)。

復(fù)旦:基于強化微調(diào)的統(tǒng)一多模態(tài)思維鏈獎勵模型-AI.x社區(qū)

總的來說,作者的方法在所有實驗中都表現(xiàn)出了優(yōu)異的表現(xiàn),證明了其在視覺生成和理解任務(wù)中的有效性。此外,作者還進行了幾個重要的實驗,包括每個訓(xùn)練階段的效果評估、去除CoT推理的GRPO方法的效果評估等,進一步驗證了作者的方法的有效性和優(yōu)越性。

本文轉(zhuǎn)載自??柏企閱文??

已于2025-5-13 09:35:50修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦