自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一篇多模態(tài)大模型推理技術(shù)最新綜述

發(fā)布于 2025-5-6 00:41
瀏覽
0收藏

盡管多模態(tài)大型語(yǔ)言模型(Multimodal Large Language Models, MLLMs)顯著擴(kuò)展了LLMs以處理視覺(jué)、音頻和視頻等多種模態(tài),但在多模態(tài)輸入之間實(shí)現(xiàn)穩(wěn)健的推理仍然是一個(gè)重大挑戰(zhàn)。華東師大&字節(jié)跳動(dòng)系統(tǒng)回顧了基于強(qiáng)化學(xué)習(xí)的MLLMs推理的最新進(jìn)展,涵蓋了關(guān)鍵的算法設(shè)計(jì)、獎(jiǎng)勵(lì)機(jī)制創(chuàng)新以及實(shí)際應(yīng)用。

一篇多模態(tài)大模型推理技術(shù)最新綜述-AI.x社區(qū)

一、MLLMs&RL基礎(chǔ)

一篇多模態(tài)大模型推理技術(shù)最新綜述-AI.x社區(qū)

MLLMs與MM-CoT

  • 多模態(tài)大型語(yǔ)言模型(MLLMs):將大型語(yǔ)言模型(LLMs)與其他模態(tài)(如視覺(jué)、音頻和視頻)的模型結(jié)合,以處理多種模態(tài)的數(shù)據(jù)。MLLMs通過(guò)將LLMs作為核心認(rèn)知引擎,并利用其他模態(tài)的基礎(chǔ)模型提供高質(zhì)量的非文本數(shù)據(jù)表示,從而擴(kuò)展了LLMs的能力。
  • 多模態(tài)鏈?zhǔn)酵评恚∕M-CoT):在多模態(tài)推理任務(wù)中,模型生成中間推理步驟(鏈?zhǔn)酵评恚@些步驟可以僅依賴于文本信息,也可以整合多模態(tài)信號(hào)。MM-CoT的目標(biāo)是通過(guò)逐步推理解決復(fù)雜問(wèn)題,同時(shí)在推理過(guò)程中融入多模態(tài)信息。

強(qiáng)化學(xué)習(xí)(RL)

  • 策略優(yōu)化方法

近端策略優(yōu)化(PPO):通過(guò)最大化代理目標(biāo)來(lái)優(yōu)化LLMs,同時(shí)引入裁剪機(jī)制以穩(wěn)定訓(xùn)練。PPO需要同時(shí)訓(xùn)練策略模型和價(jià)值模型,這在模型參數(shù)或標(biāo)記數(shù)量較大時(shí)會(huì)帶來(lái)顯著的計(jì)算需求。

REINFORCE留一法(RLOO):省略了價(jià)值模型和GAE的使用,直接利用蒙特卡洛方法計(jì)算基線,通過(guò)留一法減少策略梯度估計(jì)的方差。

組相對(duì)策略優(yōu)化(GRPO):通過(guò)直接比較生成的響應(yīng)組來(lái)優(yōu)化模型,省略了價(jià)值模型,通過(guò)相對(duì)獎(jiǎng)勵(lì)來(lái)評(píng)估響應(yīng)的質(zhì)量,減少了對(duì)硬件資源的需求。

  • 獎(jiǎng)勵(lì)機(jī)制

結(jié)果導(dǎo)向獎(jiǎng)勵(lì)機(jī)制(ORM):僅根據(jù)最終輸出的正確性來(lái)評(píng)估模型,獎(jiǎng)勵(lì)信號(hào)稀疏且延遲,難以解決長(zhǎng)期信用分配問(wèn)題。

過(guò)程導(dǎo)向獎(jiǎng)勵(lì)機(jī)制(PRM):強(qiáng)調(diào)模型在推理過(guò)程中的中間行為,提供更細(xì)粒度的監(jiān)督,但設(shè)計(jì)過(guò)程獎(jiǎng)勵(lì)依賴于對(duì)中間推理步驟的準(zhǔn)確評(píng)估,具有挑戰(zhàn)性。

  • 訓(xùn)練效率

課程強(qiáng)化學(xué)習(xí):通過(guò)逐步引入任務(wù),幫助模型逐步積累知識(shí),提高在復(fù)雜任務(wù)上的收斂速度和性能。

數(shù)據(jù)高效學(xué)習(xí):通過(guò)優(yōu)先采樣和選擇高質(zhì)量樣本,提高樣本效率,減少不必要的計(jì)算開銷。

一篇多模態(tài)大模型推理技術(shù)最新綜述-AI.x社區(qū)

二、關(guān)鍵設(shè)計(jì)與優(yōu)化:RL在LLMs/MLLMs中應(yīng)用

深入探討了強(qiáng)化學(xué)習(xí)(RL)算法在大型語(yǔ)言模型(LLMs)和多模態(tài)大型語(yǔ)言模型(MLLMs)中的關(guān)鍵設(shè)計(jì)和優(yōu)化策略:無(wú)價(jià)值方法(value-free)和基于價(jià)值的方法(value-based)。

一篇多模態(tài)大模型推理技術(shù)最新綜述-AI.x社區(qū)

2.1 Value-Free 方法

無(wú)價(jià)值方法通過(guò)直接優(yōu)化策略,而無(wú)需計(jì)算價(jià)值函數(shù),從而簡(jiǎn)化了訓(xùn)練過(guò)程并提高了計(jì)算效率。這些方法在處理長(zhǎng)推理鏈(long-CoT)任務(wù)時(shí)表現(xiàn)出色,但可能會(huì)遇到熵崩潰(entropy collapse)和獎(jiǎng)勵(lì)噪聲(reward noise)等問(wèn)題:

  • GRPO(Group Relative Policy Optimization)

核心思想:通過(guò)比較生成的響應(yīng)組來(lái)優(yōu)化模型,避免了復(fù)雜的價(jià)值模型訓(xùn)練。

挑戰(zhàn):熵崩潰和獎(jiǎng)勵(lì)噪聲,可能導(dǎo)致模型生成低質(zhì)量的輸出。

優(yōu)化策略:引入動(dòng)態(tài)采樣機(jī)制,避免梯度信號(hào)消失;采用token-level策略梯度損失,確保長(zhǎng)序列中的每個(gè)token都能公平地貢獻(xiàn)梯度。

  • DAPO(Dynamic Asymmetric Policy Optimization)

不對(duì)稱裁剪策略:通過(guò)解耦裁剪上下界,增強(qiáng)低概率token的探索能力。

動(dòng)態(tài)采樣:過(guò)濾掉準(zhǔn)確率為0或1的樣本,確保每個(gè)批次中都有有效的梯度信號(hào)。

token-level策略梯度損失:確保長(zhǎng)序列中的每個(gè)token都能公平地貢獻(xiàn)梯度。

過(guò)長(zhǎng)獎(jiǎng)勵(lì)塑形:通過(guò)逐步增加長(zhǎng)度依賴的懲罰,減少獎(jiǎng)勵(lì)噪聲,穩(wěn)定訓(xùn)練過(guò)程。

核心思想:在GRPO的基礎(chǔ)上,引入不對(duì)稱裁剪策略、動(dòng)態(tài)采樣機(jī)制、token-level策略梯度損失和過(guò)長(zhǎng)獎(jiǎng)勵(lì)塑形(overlong reward shaping)。

優(yōu)化策略

  • Dr.GRPO(Debiased Group Relative Policy Optimization)

消除長(zhǎng)度歸一化:避免模型偏好生成更長(zhǎng)的錯(cuò)誤響應(yīng)。

消除標(biāo)準(zhǔn)差歸一化:確保不同難度的問(wèn)題在優(yōu)化過(guò)程中被平等對(duì)待。

  • 核心思想:通過(guò)消除GRPO中的長(zhǎng)度偏差和問(wèn)題難度偏差,提高模型的公平性和穩(wěn)定性。
  • 優(yōu)化策略

CPPO(Completion Pruning Policy Optimization)

  • 剪枝策略:僅保留具有最高絕對(duì)優(yōu)勢(shì)值的top-k完成項(xiàng),減少冗余計(jì)算。
  • 動(dòng)態(tài)完成分配策略:結(jié)合剩余剪枝的完成項(xiàng)和新查詢的高質(zhì)量完成項(xiàng),充分利用GPU的并行計(jì)算能力。
  • 核心思想:通過(guò)剪枝策略減少計(jì)算開銷,同時(shí)保持或提高模型性能。
  • 優(yōu)化策略

3.2 Value-Based方法

基于價(jià)值的方法通過(guò)精確的逐步信用分配來(lái)優(yōu)化策略,適合處理復(fù)雜推理任務(wù)。這些方法在長(zhǎng)推理鏈任務(wù)中面臨挑戰(zhàn),但通過(guò)創(chuàng)新的優(yōu)化技術(shù),可以提高訓(xùn)練的穩(wěn)定性和性能:

PPO(Proximal Policy Optimization)

  • Open-Reasoner-Zero:通過(guò)簡(jiǎn)單的規(guī)則化獎(jiǎng)勵(lì)函數(shù)和大量的訓(xùn)練數(shù)據(jù),顯著提高了響應(yīng)長(zhǎng)度和基準(zhǔn)性能。
  • VC-PPO:通過(guò)值初始化偏差和解耦GAE(Decoupled-GAE)來(lái)優(yōu)化PPO,減少訓(xùn)練過(guò)程中的方差。
  • 核心思想:通過(guò)最大化代理目標(biāo)來(lái)優(yōu)化策略,同時(shí)引入裁剪機(jī)制以穩(wěn)定訓(xùn)練。
  • 挑戰(zhàn):在長(zhǎng)推理鏈任務(wù)中,PPO可能會(huì)遇到訓(xùn)練不穩(wěn)定和性能下降的問(wèn)題。
  • 優(yōu)化策略

VC-PPO(Value Corrected PPO)

  • 值預(yù)訓(xùn)練:通過(guò)離線訓(xùn)練價(jià)值模型,確保其能夠準(zhǔn)確估計(jì)預(yù)期回報(bào)。
  • 解耦GAE:通過(guò)為策略和價(jià)值優(yōu)化分別設(shè)置不同的??值,獨(dú)立優(yōu)化偏差-方差權(quán)衡。
  • 核心思想:通過(guò)值預(yù)訓(xùn)練和解耦GAE來(lái)優(yōu)化PPO,減少訓(xùn)練過(guò)程中的方差。
  • 優(yōu)化策略

一篇多模態(tài)大模型推理技術(shù)最新綜述-AI.x社區(qū)

一篇多模態(tài)大模型推理技術(shù)最新綜述-AI.x社區(qū)

三、RL的多模態(tài)大模型推理

系統(tǒng)回顧了基于強(qiáng)化學(xué)習(xí)(RL)的多模態(tài)大型語(yǔ)言模型(MLLMs)推理的最新進(jìn)展,涵蓋了關(guān)鍵的算法設(shè)計(jì)、獎(jiǎng)勵(lì)機(jī)制創(chuàng)新以及實(shí)際應(yīng)用。

3.1 從LLMs到MLLMs的RL訓(xùn)練范式

  • 標(biāo)準(zhǔn)化R1訓(xùn)練范式

Kimi K1.5:通過(guò)在線策略鏡像下降(OPMD)算法,將強(qiáng)化學(xué)習(xí)應(yīng)用于MLLMs,增強(qiáng)了其在多模態(tài)領(lǐng)域的推理能力。

DeepSeek R1:通過(guò)驗(yàn)證性獎(jiǎng)勵(lì)機(jī)制(Verifiable Reward Mechanism, VRM),展示了如何通過(guò)簡(jiǎn)單的規(guī)則化激勵(lì)機(jī)制和輕量級(jí)的RL算法,使LLMs能夠自主發(fā)展復(fù)雜的推理能力。

ORM(Outcome Reward Mechanism):基于最終輸出的正確性來(lái)評(píng)估模型,適用于數(shù)學(xué)問(wèn)題解決和代碼生成等任務(wù),但存在獎(jiǎng)勵(lì)信號(hào)稀疏和延遲的問(wèn)題。

PRM(Process Reward Mechanism):通過(guò)評(píng)估推理過(guò)程中的中間步驟來(lái)提供更細(xì)粒度的監(jiān)督,有助于提高模型的邏輯一致性和可解釋性。

  • MLLMs中的R1訓(xùn)練范式

MedVLM-R1:將DeepSeek R1的訓(xùn)練范式擴(kuò)展到醫(yī)學(xué)領(lǐng)域的視覺(jué)問(wèn)答任務(wù)中,通過(guò)顯式的推理路徑提高預(yù)測(cè)準(zhǔn)確性和泛化能力。

Vision-R1:通過(guò)逐步推理抑制訓(xùn)練(PTST)策略,逐步擴(kuò)展推理鏈的長(zhǎng)度,同時(shí)分離格式和準(zhǔn)確性獎(jiǎng)勵(lì),緩解了過(guò)思考的問(wèn)題。

LMM-R1:采用兩階段訓(xùn)練策略,先在純文本數(shù)據(jù)上進(jìn)行RL訓(xùn)練,再擴(kuò)展到圖像-文本數(shù)據(jù),以提高模型在視覺(jué)感知和其他多模態(tài)任務(wù)中的泛化能力。

一篇多模態(tài)大模型推理技術(shù)最新綜述-AI.x社區(qū)

3.2 多模態(tài)感知中的獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì)

  • 結(jié)果導(dǎo)向獎(jiǎng)勵(lì)機(jī)制(ORM)

任務(wù)導(dǎo)向獎(jiǎng)勵(lì)策略:根據(jù)任務(wù)的內(nèi)在屬性設(shè)計(jì)獎(jiǎng)勵(lì),如圖像分類任務(wù)使用標(biāo)簽匹配作為獎(jiǎng)勵(lì)信號(hào),目標(biāo)檢測(cè)任務(wù)優(yōu)化IoU(交并比)。

跨模態(tài)交互獎(jiǎng)勵(lì)策略:通過(guò)聯(lián)合評(píng)估不同模態(tài)的輸出來(lái)促進(jìn)更積極的跨模態(tài)交互,例如UI-R1通過(guò)評(píng)估預(yù)測(cè)的動(dòng)作類型、參數(shù)選擇和輸出格式的有效性來(lái)建立模態(tài)之間的對(duì)齊反饋。

  • 過(guò)程導(dǎo)向獎(jiǎng)勵(lì)機(jī)制(PRM)

結(jié)構(gòu)化獎(jiǎng)勵(lì)框架:通過(guò)引入結(jié)構(gòu)化獎(jiǎng)勵(lì),如邏輯一致性、信息完整性和引用可靠性,來(lái)提高模型的可解釋性和用戶信任度。

R1-VL:通過(guò)StepGRPO框架,引入StepRAR(關(guān)鍵中間推理步驟評(píng)估)和StepRVR(推理鏈邏輯連貫性評(píng)估)兩個(gè)結(jié)構(gòu)化獎(jiǎng)勵(lì)組件,顯著提高了模型在復(fù)雜任務(wù)中的邏輯一致性。

3.3 訓(xùn)練效率與穩(wěn)定性

  • 課程學(xué)習(xí)

Kimi K1.5:通過(guò)課程采樣逐步訓(xùn)練模型,從簡(jiǎn)單任務(wù)到復(fù)雜任務(wù),同時(shí)結(jié)合優(yōu)先采樣,優(yōu)化學(xué)習(xí)過(guò)程。

Curr-ReFT:將訓(xùn)練分為三個(gè)階段:二元分類、多項(xiàng)選擇和開放式問(wèn)答,每個(gè)階段都由特定任務(wù)的獎(jiǎng)勵(lì)函數(shù)引導(dǎo),逐步發(fā)展模型的推理能力。

  • 樣本效率

Reason-RFT:通過(guò)GPT-4o過(guò)濾低質(zhì)量或錯(cuò)誤樣本,重構(gòu)高質(zhì)量數(shù)據(jù)集,確保數(shù)據(jù)質(zhì)量和適用性。

Skywork R1V:通過(guò)自適應(yīng)長(zhǎng)度鏈?zhǔn)酵评碚麴s和混合優(yōu)化框架,動(dòng)態(tài)調(diào)整推理鏈長(zhǎng)度,減少對(duì)大規(guī)模標(biāo)注數(shù)據(jù)的依賴。

  • 災(zāi)難性遺忘

Curr-ReFT:通過(guò)拒絕樣本的自我改進(jìn)機(jī)制,選擇性地從高質(zhì)量的多模態(tài)和文本示例中學(xué)習(xí),以保持MLLMs的基本能力,緩解災(zāi)難性遺忘問(wèn)題。

一篇多模態(tài)大模型推理技術(shù)最新綜述-AI.x社區(qū)

一篇多模態(tài)大模型推理技術(shù)最新綜述-AI.x社區(qū)

本文轉(zhuǎn)載自???PaperAgent??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦