自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="zvomf"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

首個多模態(tài)統(tǒng)一CoT獎勵模型來了，模型、數(shù)據(jù)集、訓(xùn)練腳本全開源

2025-05-14 08:51:00

人工智能新聞

UnifiedReward-Think 展示了獎勵模型的未來方向 —— 不僅僅是一個 “打分器”，而是一個具備認(rèn)知理解、邏輯推理與可解釋輸出能力的智能評估系統(tǒng)。

在多模態(tài)大模型快速發(fā)展的當(dāng)下，如何精準(zhǔn)評估其生成內(nèi)容的質(zhì)量，正成為多模態(tài)大模型與人類偏好對齊的核心挑戰(zhàn)。然而，當(dāng)前主流多模態(tài)獎勵模型往往只能直接給出評分決策，或僅具備淺層推理能力，缺乏對復(fù)雜獎勵任務(wù)的深入理解與解釋能力，在高復(fù)雜度場景中常出現(xiàn) “失真失準(zhǔn)”。

那么，獎勵模型是否也能具備像人類一樣的深度思考能力？

近日，騰訊混元與上海 AI Lab、復(fù)旦大學(xué)、上海創(chuàng)智學(xué)院聯(lián)合提出全新研究工作 UnifiedReward-Think，構(gòu)建出首個具備長鏈?zhǔn)酵评砟芰Φ慕y(tǒng)一多模態(tài)獎勵模型，首次讓獎勵模型在各視覺任務(wù)上真正 “學(xué)會思考”，實現(xiàn)對復(fù)雜視覺生成與理解任務(wù)的準(zhǔn)確評估、跨任務(wù)泛化與推理可解釋性的大幅提升。

論文題目: Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
項目主頁：https://codegoat24.github.io/UnifiedReward/think
論文鏈接：https://arxiv.org/pdf/2505.03318
GitHub：https://github.com/CodeGoat24/UnifiedReward
模型：https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a
數(shù)據(jù)集：https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede

一、背景與動機：獎勵模型也需要 “思考”

當(dāng)前的多模態(tài)獎勵模型大多只能對結(jié)果進(jìn)行 “表面判斷”，缺乏深度推理與可解釋的決策依據(jù)，難以支撐對復(fù)雜視覺任務(wù)的精準(zhǔn)評估。

該工作研究團(tuán)隊提出關(guān)鍵問題：是否可以引入 “長鏈?zhǔn)剿伎肌保–hain-of-Thought, CoT）機制，賦予獎勵模型更強的推理能力？

挑戰(zhàn)在于，當(dāng)前缺乏高質(zhì)量的多模態(tài) CoT 獎勵推理數(shù)據(jù)，傳統(tǒng) SFT 等訓(xùn)練范式難以直接教會模型掌握推理過程。

他們認(rèn)為，多模態(tài)大模型本身具備深層、多維度的推理潛力，關(guān)鍵在于設(shè)計一套高效訓(xùn)練范式去激發(fā)并強化獎勵模型的 “思考能力”。

二、解決方案：三階段訓(xùn)練范式，逐步進(jìn)化獎勵模型推理能力

該研究提出一套新穎的 “三階段” 訓(xùn)練框架，分為 “激發(fā) → 鞏固 → 強化”，層層推進(jìn)模型的推理進(jìn)化：

階段一：冷啟動激發(fā)（Cold Start）

使用僅 5K 圖像生成任務(wù)的高質(zhì)量 CoT 獎勵推理數(shù)據(jù)，讓模型學(xué)會基本的推理格式與結(jié)構(gòu)。實驗表明，這一階段就能激發(fā)模型在多個視覺任務(wù)中的推理能力。

階段二：拒絕采樣鞏固（Rejection Sampling）

利用冷啟動后的模型在各視覺任務(wù)的泛化能力，對大規(guī)模多模態(tài)偏好數(shù)據(jù)進(jìn)行推理，通過拒絕采樣剔除邏輯錯誤樣本，強化模型對正確思維鏈的推理模式。

階段三：GRPO 強化（Group Relative Policy Optimization）

針對推理錯誤樣本，引入 GRPO 強化學(xué)習(xí)機制，引導(dǎo)模型探索多樣化推理路徑，從錯誤中學(xué)習(xí)，逐步收斂到正確邏輯思考。

三、實驗亮點：獎勵模型不僅能 “顯示長鏈推理”，還能 “隱式邏輯思考”

UnifiedReward-Think 在多個圖像生成與理解任務(wù)中進(jìn)行了系統(tǒng)評估，結(jié)果表明該模型具備多項突破性能力：

更強可解釋性：能夠生成清晰、結(jié)構(gòu)化的獎勵推理過程；
更高可靠性與泛化能力：各視覺任務(wù)均表現(xiàn)出顯著性能提升；
出現(xiàn)隱式推理能力：即使不顯式輸出思維鏈，模型也能作出高質(zhì)量判斷，表明推理邏輯已 “內(nèi)化” 為模型能力的一部分。

定量實驗：長鏈推理帶來全面性能飛躍

定量結(jié)果表明

在圖像與視頻生成獎勵任務(wù)中，全面優(yōu)于現(xiàn)有方法；
在圖像理解類獎勵任務(wù)上，長鏈思維鏈推理帶來顯著性能提升，驗證了復(fù)雜視覺理解對深度推理能力的高度依賴；
即便在不顯式輸出思維鏈的情況下，模型仍能通過隱式邏輯推理保持領(lǐng)先表現(xiàn)，相比顯式 CoT 推理僅有輕微下降，展現(xiàn)出強大的 “內(nèi)化邏輯” 能力；
與基礎(chǔ)版本 UnifiedReward 相比，加入多維度、多步驟推理帶來了多任務(wù)的全面性能躍升，驗證了 “獎勵模型也能深度思考” 的價值。

消融實驗：三階段訓(xùn)練策略缺一不可

該工作進(jìn)行了系統(tǒng)的消融實驗，驗證三階段訓(xùn)練范式中每一步的獨立貢獻(xiàn)：

冷啟動階段：模型學(xué)會了 CoT 推理的結(jié)構(gòu)，但對獎勵預(yù)測的準(zhǔn)確性仍較有限；
拒絕采樣階段：通過篩除推理錯誤樣本，顯著提升了模型對 “正確思維鏈” 的偏好，有效增強了模型的穩(wěn)定性與泛化性；
GRPO 階段：提升幅度最大，模型聚焦于錯誤推理樣本，通過多路徑推理探索，逐步收斂至更精確的推理過程，體現(xiàn)出該階段對 “推理糾錯” 的關(guān)鍵作用。
無推理路徑的 GRPO 版本效果顯著下降。我們進(jìn)一步驗證：若去除 CoT 推理、讓獎勵模型僅對最終答案進(jìn)行 GRPO 強化，雖然略優(yōu)于 baseline，但提升比較有限。說明僅優(yōu)化結(jié)果遠(yuǎn)不足以驅(qū)動深層推理能力的形成。

結(jié)論：顯式建模思維鏈推理路徑，是強化獎勵模型泛化與魯棒性的關(guān)鍵。GRPO 訓(xùn)練階段之所以有效，根源在于 “強化正確推理過程”，而非僅僅是 “強化正確答案”。

定性效果展示

該工作在多種視覺任務(wù)中對模型進(jìn)行了案例測試，展現(xiàn)出其按任務(wù)定制評估維度的能力。通過對圖像、視頻或答案進(jìn)行細(xì)粒度、多維度打分，并基于各維度總分進(jìn)行整體判斷。此設(shè)計有效緩解了多模態(tài)模型中常見的 “推理過程與最終評分語義脫節(jié)” 問題，顯著提升了評估的一致性與可信度。

四：總結(jié)

UnifiedReward-Think 展示了獎勵模型的未來方向 —— 不僅僅是一個 “打分器”，而是一個具備認(rèn)知理解、邏輯推理與可解釋輸出能力的智能評估系統(tǒng)。

目前，該項目已全面開源：包括模型、數(shù)據(jù)集、訓(xùn)練腳本與評測工具，歡迎社區(qū)研究者探索、復(fù)現(xiàn)與應(yīng)用。

責(zé)任編輯：張燕妮來源：機器之心

AI 訓(xùn)練工具

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="m9gsi"><p id="m9gsi"></p></sub>