DeepSeek-R1的風(fēng)吹到了多模態(tài),Visual-RFT發(fā)布,視覺(jué)任務(wù)性能飆升20%
盡管DeepSeek-R1風(fēng)格的模型在語(yǔ)言模型中已經(jīng)取得了成功,但其在多模態(tài)領(lǐng)域的應(yīng)用仍然有待深入探索。
上交大等提出并開(kāi)源 Visual-RFT,將 RFT 擴(kuò)展到視覺(jué)任務(wù),通過(guò)設(shè)計(jì)針對(duì)不同視覺(jué)任務(wù)的可驗(yàn)證獎(jiǎng)勵(lì)函數(shù),提升 LVLMs 在視覺(jué)感知和推理任務(wù)中的性能。
視覺(jué)強(qiáng)化微調(diào)(Visual-RFT)的概述。與(a)數(shù)據(jù)驅(qū)動(dòng)的視覺(jué)指令微調(diào)相比,(b)視覺(jué)強(qiáng)化微調(diào)(Visual-RFT)在有限數(shù)據(jù)下更具數(shù)據(jù)效率。(c)成功地將RFT應(yīng)用于一系列多模態(tài)任務(wù),并在底部展示了模型的推理過(guò)程示例。
Visual-RFT 的核心在于利用 LVLMs 生成多個(gè)包含推理過(guò)程和最終答案的響應(yīng),并通過(guò)可驗(yàn)證獎(jiǎng)勵(lì)函數(shù)對(duì)模型進(jìn)行策略優(yōu)化。具體步驟如下:
- 任務(wù)輸入:模型接收?qǐng)D像和問(wèn)題作為輸入。
- 響應(yīng)生成:LVLMs 生成多個(gè)可能的響應(yīng),每個(gè)響應(yīng)包含推理過(guò)程和最終答案。
- 獎(jiǎng)勵(lì)計(jì)算:針對(duì)不同任務(wù)(如目標(biāo)檢測(cè)、分類等),設(shè)計(jì)特定的可驗(yàn)證獎(jiǎng)勵(lì)函數(shù),如 IoU 獎(jiǎng)勵(lì)(用于目標(biāo)檢測(cè))和分類準(zhǔn)確率獎(jiǎng)勵(lì)。
- 策略優(yōu)化:使用 GRPO 等策略優(yōu)化算法,根據(jù)獎(jiǎng)勵(lì)函數(shù)更新模型參數(shù)。
可驗(yàn)證獎(jiǎng)勵(lì)函數(shù)
- IoU 獎(jiǎng)勵(lì)(目標(biāo)檢測(cè)):通過(guò)計(jì)算預(yù)測(cè)邊界框與真實(shí)邊界框的交并比(IoU)來(lái)評(píng)估檢測(cè)任務(wù)的獎(jiǎng)勵(lì)。
- 分類準(zhǔn)確率獎(jiǎng)勵(lì)(分類任務(wù)):通過(guò)比較模型輸出類別與真實(shí)類別來(lái)評(píng)估獎(jiǎng)勵(lì)。
視覺(jué)強(qiáng)化微調(diào)(Visual-RFT)的框架。給定問(wèn)題和視覺(jué)圖像輸入后,策略模型會(huì)生成多個(gè)包含推理步驟的響應(yīng)。然后,使用可驗(yàn)證獎(jiǎng)勵(lì)(如IoU獎(jiǎng)勵(lì)和分類獎(jiǎng)勵(lì))與策略梯度優(yōu)化算法來(lái)更新策略模型。
在細(xì)粒度圖像分類、少樣本目標(biāo)檢測(cè)、推理定位以及開(kāi)放詞匯目標(biāo)檢測(cè)基準(zhǔn)測(cè)試中的實(shí)驗(yàn)結(jié)果表明,與監(jiān)督微調(diào)(SFT)相比,Visual-RFT具有競(jìng)爭(zhēng)力的性能和先進(jìn)的泛化能力:
- 在大約100個(gè)樣本的單樣本細(xì)粒度圖像分類中,Visual-RFT的準(zhǔn)確率比基線提高了24.3%。
- 在少樣本目標(biāo)檢測(cè)中,Visual-RFT在COCO的兩樣本設(shè)置中超過(guò)了基線21.9,在LVIS上超過(guò)了15.4。
Visual-RFT代表了對(duì)LVLMs微調(diào)范式的一種轉(zhuǎn)變,提供了一種數(shù)據(jù)高效、由獎(jiǎng)勵(lì)驅(qū)動(dòng)的方法,增強(qiáng)了對(duì)特定領(lǐng)域任務(wù)的推理能力和適應(yīng)性。
細(xì)粒度圖像分類的定性結(jié)果。推理過(guò)程顯著提升了大型視覺(jué)語(yǔ)言模型(LVLMs)的推理能力,從而提高了圖像分類的性能。
在LISA [11] 數(shù)據(jù)集上的推理定位任務(wù)的定性結(jié)果。通過(guò)Visual-RFT,推理過(guò)程顯著提升了模型的推理定位能力。
https://arxiv.org/pdf/2503.01785
Visual-RFT: Visual Reinforcement Fine-Tuning
https://github.com/Liuziyu77/Visual-RFT
本文轉(zhuǎn)載自??PaperAgent??
