VLM-R1:一種穩(wěn)定且具有泛化性的 R1 風格大型視覺語言模型 原創(chuàng) 精華
摘要
最近,DeepSeek R1 表明,強化學習(RL)可以通過一種簡單而有效的設計,大幅提升大語言模型(LLMs)的推理能力。R1 的核心在于其基于規(guī)則的獎勵公式,它利用具有確定性正確答案的任務,實現(xiàn)精確且穩(wěn)定的獎勵計算。在視覺領域,我們同樣觀察到,許多視覺理解任務本質上都配備了定義明確的真實標注。這一特性使它們自然地與基于規(guī)則的獎勵機制兼容。受此啟發(fā),我們研究將 R1 風格的強化學習擴展到視覺語言模型(VLMs)中,旨在提升其視覺推理能力。為此,我們開發(fā)了 VLM-R1,這是一個專門設計的框架,利用強化學習來提高視覺語言模型在通用視覺語言任務上的性能。通過這個框架,我們進一步探索了強化學習在視覺領域應用的可行性。實驗結果表明,基于強化學習的模型不僅在視覺理解任務上表現(xiàn)出色,而且在泛化能力上超過了監(jiān)督微調(SFT)。此外,我們進行了全面的消融研究,揭示了一系列值得關注的發(fā)現(xiàn),包括目標檢測中的獎勵作弊現(xiàn)象、“目標檢測頓悟時刻” 的出現(xiàn)、訓練數(shù)據(jù)質量的影響,以及強化學習在不同模型規(guī)模下的縮放行為。通過這些分析,我們旨在加深對強化學習如何提升視覺語言模型能力的理解,并且希望我們的研究結果和開源貢獻能夠推動視覺語言強化學習社區(qū)的持續(xù)發(fā)展。我們的代碼和模型可在??https://github.com/om-ai-lab/VLM-R1???上獲取。
圖1. VLM-R1提供了一個標準流程,通過強化學習來增強基礎視覺語言模型(VLMs)。
1. 引言
OpenAI o1 的推出表明,強化學習(RL)能夠讓大語言模型(LLMs)直接從對其輸出的反饋中學習,從而顯著提升它們的推理能力。最近,DeepSeek R1 進一步推進了這一觀點,表明簡單的基于規(guī)則的獎勵(無需單獨訓練的獎勵模型)就足以讓大語言模型自主獲得復雜的推理能力。
這一成功的關鍵因素在于,基于規(guī)則的獎勵設計易于應用于具有確定性正確答案的任務,從而實現(xiàn)穩(wěn)定且可解釋的獎勵信號。類似地,在視覺領域,存在許多視覺理解任務,這些任務本質上包含精確且客觀定義的真實標注。例如,指代表達理解(REC)等任務可以直接采用預測邊界框與真實標注之間的交并比(IoU)作為明確的獎勵指標。受這些觀察的啟發(fā),研究類似的強化學習方法是否能同樣提升視覺語言模型(VLMs)的推理能力,就變得很自然了。
為此,我們開發(fā)了 VLM-R1,這是一個專門設計且可擴展的框架,旨在應用強化學習來提高視覺語言模型在通用視覺語言任務上的性能。VLM-R1 在設計時考慮了靈活性、可擴展性和易于實驗性。它支持廣泛的配置,專為視覺語言模型背景下基于強化學習的優(yōu)化研究而定制。VLM-R1 的主要特點包括:
?GRPO 兼容性:完全支持原生的 GRPO 算法,并可對所有超參數(shù)進行細粒度控制。
?基于 LoRA 的訓練:通過 LoRA 實現(xiàn)高效的參數(shù)訓練,適用于資源有限的場景。
?多節(jié)點訓練:支持跨多個 GPU 或服務器節(jié)點的分布式訓練,以實現(xiàn)可擴展性。
?多圖像輸入:每個樣本支持多個圖像,便于處理復雜的多圖像推理任務。
?模型靈活性:與多種視覺語言模型兼容,目前支持 QwenVL 和 InternVL。
?自定義數(shù)據(jù)集支持:輕松集成用戶定義的數(shù)據(jù)集,允許進行特定任務或特定領域的實驗。
?混合模態(tài)訓練:支持在圖像文本和純文本數(shù)據(jù)集上進行訓練,包括混合組合。
通過提供統(tǒng)一、模塊化且高度適應性的訓練流程,VLM-R1 成為推進強化學習與視覺語言建模交叉領域研究的有力工具。
在本報告中,我們利用 VLM-R1 框架,選擇了兩個視覺理解任務 —— 指代表達壓縮(REC)和開放詞匯目標檢測(OVD),來探索強化學習在視覺語言模型中應用的可行性和有效性。REC 和 OVD 具有相同的輸出格式 —— 邊界框,但任務復雜度差異顯著。在 REC 中,模型需要根據(jù)給定的查詢預測單個邊界框,而在 OVD 中,模型必須為每個查詢目標準確輸出相應的邊界框。這種對比使我們能夠分析具有相似輸出結構但難度不同的任務,如何影響強化學習在視覺語言模型中的有效性。此外,我們觀察到,在這些任務上,視覺語言模型的表現(xiàn)往往不如專門的視覺模型(例如 Grounding DINO、OmDet)。如表 1 所示,盡管 Qwen2.5-VL-3B 的參數(shù)數(shù)量是 Grounding DINO 的 10 倍以上,但在 REC 和 OVD 基準測試中,其性能仍落后于后者。這種性能差距引發(fā)了一個重要問題:強化學習能否用于提升視覺語言模型在這些具有挑戰(zhàn)性的視覺理解任務上的有效性?
表 1. Qwen2.5-VL-3B 與 Grounding DINO 在 REC 和 OVD 任務上的性能對比。盡管 Qwen2.5-VL-3B 的參數(shù)數(shù)量是 Grounding DINO 的 10 倍以上,但在這些評估數(shù)據(jù)集上仍表現(xiàn)不佳。這顯示了視覺語言模型在這些視覺理解任務上的不足。
實驗結果表明,與監(jiān)督微調(SFT)相比,強化學習顯著提升了視覺語言模型的視覺理解性能。更重要的是,在復雜的真實世界基準測試中,強化學習在泛化能力上取得了更大的提升。在 REC 任務中,我們的 30 億參數(shù)強化學習模型在域外評估基準 LISAGrounding 上的得分達到 63.16(監(jiān)督微調模型為 54.82)。在 OVD 任務中,30 億參數(shù)強化學習模型在 COCO 數(shù)據(jù)集上的平均精度均值(AP)達到 21.1(監(jiān)督微調模型為 17.8;70 億參數(shù)基線模型為 14.2),在 OVDEval 基準測試中達到了新的最優(yōu)成績 31.01 nms-AP(監(jiān)督微調模型為 26.50;70 億參數(shù)模型為 29.08),在復雜子任務中表現(xiàn)尤為出色。
此外,全面的消融研究進一步揭示了一系列重要發(fā)現(xiàn)。例如,我們觀察到目標檢測中的獎勵作弊現(xiàn)象,并通過獎勵工程來緩解這一問題,在此過程中模型出現(xiàn)了 “目標檢測頓悟時刻”,即先推理目標是否存在,再進行預測。此外,我們還證明了仔細選擇訓練數(shù)據(jù)可以提高最終性能,并分析了模型大小的影響。綜上所述,我們的研究結果表明,更復雜的任務(如開放詞匯目標檢測)需要額外的優(yōu)化才能取得優(yōu)異的性能,而相對簡單的任務(如指代表達理解)則可以通過較少的修改得到有效解決。我們的貢獻可以總結如下:
?我們基于 open-r1 開發(fā)了 VLM-R1,這是一個專門設計且可擴展的框架,旨在應用強化學習來提高視覺語言模型的性能,注重靈活性、可擴展性、易于實驗性,并支持廣泛的強化學習配置。
?我們通過訓練指代表達壓縮和開放詞匯目標檢測這兩個基本的視覺理解任務,證明了強化學習在視覺語言模型中的有效性。使用 VLM-R1 訓練的強化學習模型與監(jiān)督微調模型相比,性能有所提升,尤其是在復雜的真實世界域外基準測試中。
?我們擴展的消融研究揭示了一系列有趣的發(fā)現(xiàn),包括目標檢測中獎勵作弊現(xiàn)象的存在、“目標檢測頓悟時刻” 的出現(xiàn)、訓練數(shù)據(jù)質量的影響,以及強化學習在不同模型規(guī)模上的效果。我們報告了這些發(fā)現(xiàn),并分析了如何優(yōu)化強化學習以提升視覺語言模型的性能。
?我們發(fā)布了框架代碼庫和所有模型權重,希望為視覺語言強化學習的開源社區(qū)做出貢獻。
2. 相關工作
2.1 視覺語言模型
自大語言模型(LLMs)出現(xiàn)以來,它們在各種語言應用中取得了成功,推動了視覺語言模型(VLMs)的發(fā)展,開創(chuàng)性的工作包括 [4, 22, 26]。隨后,LLaVA 利用 GPT-4 開發(fā)訓練數(shù)據(jù),并在視覺對話和視覺推理中取得了不錯的成績,激發(fā)了一系列專注于視覺指令數(shù)據(jù)的研究 [8, 13, 29]。然而,當時視覺語言模型的一個關鍵限制在于其圖像輸入分辨率受底層視覺編碼器能力的制約 [43, 47, 57]。為了克服這一問題,AnyRes 機制被引入,允許靈活處理不同分辨率和寬高比的圖像。這一進展提高了視覺語言模型對各種視覺輸入的感知能力,并進一步增強了它們的推理能力。如今,一些最廣泛采用的開源視覺語言模型系列包括 LLaVA、QwenVL 和 InternVL。
2.2 將 R1 應用于視覺語言模型的嘗試
有幾項同期研究探索了將 R1 應用于視覺語言模型(VLMs)。同期工作 R1-OneVision 和 R1-V 是這一方向的重要研究。R1-OneVision 提出了一種跨模態(tài)推理流程,將圖像轉換為視覺形式表示,然后通過語言模型構建視覺推理數(shù)據(jù)集。視覺語言模型首先在該數(shù)據(jù)集上進行訓練,隨后通過強化學習階段進一步提升其推理能力。與此同時,R1-V 將 DeepSeek R1 中的 GRPO 方法引入視覺語言模型訓練,針對目標計數(shù)任務,使一個 30 億參數(shù)的模型性能超過了一個 720 億參數(shù)的模型。不久之后,VisualThinker-R1-Zero 被提出,它表明將 R1 應用于基礎視覺語言模型(而非指令微調模型)可以實現(xiàn)更顯著的性能提升,并成功觸發(fā)了所謂的 “視覺頓悟時刻”。另一項觀察到頓悟時刻出現(xiàn)以及模型響應長度增加(類似于 DeepSeek R1 中的現(xiàn)象)的工作是 MMEureka,它將 RLOO 應用于 80 億參數(shù)的指令微調視覺語言模型和 380 億參數(shù)的基礎視覺語言模型。與 R1-OneVision 類似,Vision-R1 通過將視覺信息轉換為語言格式并輸入到語言推理模型中,構建了一個多模態(tài)思維鏈(CoT)數(shù)據(jù)集。該數(shù)據(jù)集作為冷啟動訓練數(shù)據(jù),隨后通過 GRPO 進一步增強模型的多模態(tài)推理能力。此外,Curr-ReFT 提出了一種具有漸進難度獎勵的三階段強化學習方法來優(yōu)化強化學習訓練,LMM-R1 提出了一種兩階段基于規(guī)則的強化學習方法,首先采用純文本數(shù)據(jù)增強模型的基本推理能力,然后在有限的復雜多模態(tài)推理任務上繼續(xù)進行強化學習。
上述大多數(shù)研究主要集中在提高多模態(tài)數(shù)學任務的性能上 [36, 48, 58]。相比之下,Visual-RFT 將強化學習應用于視覺感知任務,與我們的工作更為相關。然而,我們的研究提供了更全面的調查,不僅僅是監(jiān)督微調(SFT)和強化學習之間的簡單比較。具體來說,我們進一步分析了獎勵工程的作用,并系統(tǒng)地研究了仔細選擇訓練數(shù)據(jù)的影響,特別是對于復雜任務。
3. VLM-R1 框架
在本節(jié)中,我們簡要介紹所提出的 VLM-R1 框架。VLM-R1 基于 OpenR1 構建,OpenR1 是一個用于重現(xiàn) DeepSeek R1 語言推理能力的開源框架。我們將其實現(xiàn)擴展到視覺語言領域。
除了我們的框架,還有其他幾個針對視覺語言強化學習的開源框架 [1, 9]。需要注意的是,我們的主要目標是將 R1 風格的方法應用于視覺語言模型(VLMs)。因此,我們目前的實現(xiàn)僅專注于 DeepSeek R1 最初采用的 GRPO 算法。目前,VLM-R1 僅支持 GRPO,計劃在未來的工作中集成更多的強化學習算法。接下來,我們首先概述該框架,然后詳細描述 VLM 模塊,該模塊能夠無縫支持各種視覺語言模型架構。
3.1 概述
如圖 2 所示,VLM-R1 框架由兩個主要組件組成:grpo_jsonl.py 和 grpo_trainer.py,它們共同構成了將 GRPO 算法應用于視覺語言模型的完整流程。
圖 2:VLM-R1 框架流程圖。此圖展示了框架的功能轉換。VLM-R1 的關鍵特性由綠色矩形顯示。
在第一階段(grpo_jsonl.py),作為準備階段,用戶可以靈活定義自定義獎勵函數(shù),并根據(jù)自己的任務準備訓練數(shù)據(jù)。該框架還通過模塊化的 VLM 模塊定義支持各種視覺語言模型,這將在 3.2 節(jié)中描述。第二階段(grpo_trainer.py)管理 GRPO 訓練過程。它從模型初始化開始,然后根據(jù)用戶自定義參數(shù)確定訓練參數(shù)。我們支持 LoRA 微調、視覺塔凍結訓練和全參數(shù)訓練,以適應不同的計算資源和任務要求。隨后,模型生成多個序列,并使用定義的獎勵函數(shù)對其進行評分。這些獎勵信號用于計算 GRPO 損失,以進行參數(shù)優(yōu)化。
VLM-R1 為 GRPO 訓練提供了全面支持,同時在獎勵設計、模型選擇和優(yōu)化策略方面提供了靈活性,使其成為基于強化學習的視覺語言研究的通用工具。
3.2 VLM 模塊
為了便于將各種視覺語言模型無縫集成到訓練過程中,我們設計了一個統(tǒng)一的組件,稱為 VLM 模塊。該模塊封裝了通用的視覺語言模型功能,例如檢索模型的類名,以及將輸入問題格式化為特定模型的聊天模板。通過抽象這些操作,GRPOTrainer 可以通過簡單調用 VLM 模塊提供的標準化接口與不同的視覺語言模型進行交互,而無需處理特定模型的實現(xiàn)細節(jié)。這種設計不僅簡化了新模型的集成,還增強了整個框架的模塊化和可讀性。Trainer 與 VLM 模塊之間的交互如圖 3 所示。
圖 3:Trainer 與 VLM 模塊之間的交互。通過 VLM 模塊,GRPOTrainer 可以通過簡單調用標準化接口與不同的視覺語言模型進行交互,而無需處理特定模型的實現(xiàn)。
4. 獎勵設計
如第 1 節(jié)所述,我們選擇指代表達理解(REC)和開放詞匯目標檢測(OVD)作為代表性任務,主要基于兩點考慮。首先,這兩個任務都具有相同的邊界框輸出格式,但復雜度不同,為研究強化學習在不同難度任務中的影響提供了合適的設置。其次,專門的視覺模型在這些基準測試中始終優(yōu)于視覺語言模型,這為評估強化學習是否有助于縮小這一性能差距提供了寶貴的機會。
在本節(jié)中,我們首先簡要介紹通用的 GRPO 算法,然后介紹為 REC 和 OVD 任務設計的、集成到 GRPO 中的獎勵函數(shù)。
4.1 GRPO 算法概述
與 PPO 等強化學習算法不同(PPO 需要額外的價值評估模型來估計策略性能),分組相對策略優(yōu)化(GRPO)直接比較候選響應組,無需單獨的價值評估模型。給定一個問題 q,GRPO 從策略\pi_{\theta}中采樣 N 個候選響應\{o_{1}, o_{2}, ..., o_{N}\},并使用獎勵函數(shù)R(q, o_{i})評估每個響應o_{i},該函數(shù)衡量在給定問題背景下候選響應的質量。為了確定這些響應的相對質量,GRPO 通過計算獎勵的均值和標準差對獎勵進行歸一化,然后得出優(yōu)勢值:
其中A_{i}表示候選響應o_{i}相對于其他采樣響應的優(yōu)勢值。GRPO 通過使用以下目標更新策略\pi_{\theta},鼓勵模型在組內生成具有更高優(yōu)勢值的響應:
圖片
如 3.1 節(jié)所述,上述公式中的所有超參數(shù)都包含在我們提出的 VLM-R1 框架中。
隨后,我們將介紹為 REC 和 OVD 任務采用的獎勵函數(shù) R。遵循 DeepSeek-R1,我們使用兩種類型的獎勵:準確率獎勵和格式獎勵。
4.2 指代表達理解的獎勵函數(shù)
準確率獎勵:指代表達理解(REC)是要求模型識別由指代表達描述的對象的區(qū)域邊界框的任務。用 q 表示輸入問題,b^{*}表示真實邊界框,o表示視覺語言模型的輸出句子,f_{rec}表示從輸出句子中提取邊界框的函數(shù)。REC 的準確率獎勵定義為:
其中 IoU 是交并比度量。這個獎勵函數(shù)旨在鼓勵模型生成與真實邊界框緊密匹配的邊界框。
?格式獎勵:REC 的格式獎勵檢查響應是否遵循指定格式,要求模型在標簽中輸出 json 格式的響應,并包含一個邊界框(...{...[x1, y1, x2, y2] .... }),根據(jù)合規(guī)情況返回 1 或 0。
4.3 開放詞匯目標檢測的獎勵函數(shù)
?準確率獎勵:開放詞匯目標檢測(OVD)要求模型在圖像中檢測給定的對象標簽,并輸出相應的邊界框和類別標簽。這個任務與 REC 具有相似的輸出格式,但由于需要同時生成邊界框和類別標簽,所以更加復雜。在這個任務中,我們促使視覺語言模型輸出一個邊界框列表以及它們相應的類別標簽,這些可以通過一個函數(shù)f_{ood}提取為一個組合列表b_{pred }={(b_{1}, c_{1}),(b_{2}, c_{2}), ...,(b_{n}, c_{n})},其中b_{i}是邊界框,c_{i}是類別標簽。設q表示輸入問題,mAP()表示計算平均精度均值度量的函數(shù),b_{gt}表示真實邊界框和類別標簽的組合列表,L_{gt}表示真實組合的數(shù)量,L_{pred }表示預測組合的數(shù)量。OVD 的準確率獎勵定義為:
其中s_{ovd}是對視覺語言模型冗余預測的懲罰因子,我們的實驗表明這個懲罰因子有助于提高 OVD 任務的性能。這個獎勵被指定為 odLength 獎勵。
?格式獎勵:OVD 的格式獎勵檢查響應是否遵循指定格式,要求模型在標簽中輸出 markdown 格式的 JSON 響應(... ‘‘‘json...‘‘‘),根據(jù)合規(guī)情況返回 1 或 0。
5. 實驗
5.1 實現(xiàn)細節(jié)
?選擇的視覺語言模型:我們采用 Qwen2.5VL-3B-Instruct 作為基礎模型,因為它在視覺語言理解方面具有很強的潛在性能,有望通過強化學習進一步挖掘。在一些實驗中,我們還引入了 Qwen2.5VL-7B-Instruct 和 32B 模型,以研究模型大小的影響。
?超參數(shù)設置:在使用強化學習訓練 REC 時,我們采用默認的 GRPO 參數(shù)設置,將N設置為 8,溫度設置為 0.9,迭代次數(shù)設置為 1,KL 散度比率(即\beta)設置為 0.04。我們訓練模型 2 個 epoch,強化學習和監(jiān)督微調的學習率均為1e-6。對于 OVD 任務,我們僅將\beta設置為 0,其他參數(shù)保持不變。
?提示模板
?REC 的問題模板:請?zhí)峁┻@句話描述區(qū)域的邊界框坐標:{query}。
?OVD 的問題模板:請仔細檢查圖像并檢測以下對象:{目標列表}。以 JSON 格式輸出每個檢測到的目標的邊界框坐標。邊界框坐標的格式為:“‘json [”bbox 2d”: [x1, y1, x2, y2], ”label”: ” 目標名稱”, ”bbox 2d”: [x1, y1, x2, y2], ”label”: ” 目標名稱”]。如果圖像中沒有這些目標,只需回復 None。
?思考提示:{問題} 在 標簽中輸出思考過程,在 標簽中輸出最終答案。
5.2 主要結果
5.2.1 指代表達理解
?訓練數(shù)據(jù)集:我們使用 Refcoco/+/g 的訓練分割作為訓練數(shù)據(jù)。這些是 REC 任務中使用最廣泛的數(shù)據(jù)集,主要包含基于空間或外觀屬性的對象描述,不涉及明確的推理信息。我們的目標是研究在這種非推理數(shù)據(jù)集上訓練的模型,能否將通過強化學習過程獲得的推理能力泛化到更具挑戰(zhàn)性的評估場景中。
?評估數(shù)據(jù)集:我們選擇 Refcoco/+/g 的驗證分割進行域內評估,選擇 LISA-Grounding 的測試分割進行域外評估。LISA-Grounding 是一個推理密集型數(shù)據(jù)集,要求模型進行細粒度的視覺感知、對指代表達的精確理解以及對象之間的關系推理,才能正確定位目標邊界框。圖 4 展示了兩個數(shù)據(jù)集之間差異的示例。對 LISA-Grounding 的評估是對模型將從較少推理需求的域內數(shù)據(jù)集獲得的推理技能,泛化到更具挑戰(zhàn)性的域外場景能力的關鍵測試。
圖 4:REC 任務中域內和域外數(shù)據(jù)集的差異。域內數(shù)據(jù)僅描述對象的空間或外觀屬性信息,而域外數(shù)據(jù)要求模型利用開放世界知識識別足球守門員的角色,然后進行定位。
?結果:表 2 展示了監(jiān)督微調(SFT)和強化學習(RL)模型在四個數(shù)據(jù)集上的性能,圖 5 提供了相應的可視化,以便更清晰地進行比較。在域內測試數(shù)據(jù)中,無論訓練步數(shù)多少,SFT 模型相對于基礎模型(即步驟 0)的改進都很有限,而 RL 模型始終能實現(xiàn)穩(wěn)定的性能提升(圖 5 頂部)。更關鍵的是,在域外測試數(shù)據(jù)上,隨著訓練的進行,SFT 模型的性能略有下降。相比之下,RL 模型有效地將其推理能力泛化到域外設置,保持穩(wěn)定且優(yōu)異的性能(圖 5 底部)。這些結果清楚地證明了強化學習在提高視覺語言模型在需要密集推理的具有挑戰(zhàn)性場景中的泛化能力方面的優(yōu)勢。
表 2. 監(jiān)督微調(SFT)和強化學習(RL)在域內和域外評估數(shù)據(jù)集上的性能比較。所有結果均來自在 Refcoco/+/g 訓練分割上訓練的 Qwen2.5VL3B-Instruct 模型。步驟 0 表示 Qwen2.5VL-3B-Instruct 模型本身的結果。?RL?SFT 表示 RL 模型相對于 SFT 模型的改進值。
圖 5:監(jiān)督微調(SFT)和強化學習(RL)模型的性能比較。與 SFT 模型相比,RL 模型在域外評估數(shù)據(jù)集上表現(xiàn)出明顯更好的泛化能力。
5.2.2 開放詞匯目標檢測
?訓練數(shù)據(jù)集:我們使用描述檢測數(shù)據(jù)集(D^{3})作為訓練數(shù)據(jù),它為訓練目標檢測模型提供了幾個獨特的優(yōu)勢:(1)完整的注釋覆蓋;(2)不受限制的語言描述;(3)實例級注釋;(4)支持不存在表達。在訓練過程中,我們隨機從其他訓練樣本中引入 1 - 3 個描述作為負樣本。
?評估數(shù)據(jù)集:我們選擇COCO_{filtered}和 OVDEval 進行評估。COCO_{filtered}是從 COCO 數(shù)據(jù)集的實例 val2017.json 文件創(chuàng)建的。由于視覺語言模型在目標檢測任務中的召回率通常較低(詳見 [21]),我們過濾掉注釋框超過 10 個的類別,確保只包含注釋框較少的類別。OVDEval 用于評估模型的能力。這是一個專門為開放詞匯檢測設計的綜合基準,它從六個關鍵語言方面系統(tǒng)地評估模型。它進一步引入了硬負樣本以評估模型的魯棒性,并使用一種新穎的 NMS-AP 度量來解決常見的 “膨脹 AP 問題”,從而提供更準確的 OVD 評估。在計算 AP 時,視覺語言模型生成的所有輸出框的置信度分數(shù)都設為 1。在 COCO 評估中,{目標列表} 始終設置為所有 COCO 80 個類別。對于 OVDEval 評估,我們保持官方的評估設置。
?結果:表 3 展示了在COCO_{filtered}上的性能。經過強化學習訓練的模型相對于監(jiān)督微調模型有顯著改進,平均精度均值(mAP)提高了 2.6 個百分點(21.1% 對 18.5%),貪婪精度提高了 4.42 個百分點(57.57% 對 53.15%),貪婪召回率提高了 4.33 個百分點(43.73% 對 39.4%)。這些在所有指標上的持續(xù)改進證明了強化學習卓越的泛化能力。
表 3. 在COCO_{filtered}上的 OVD 任務結果?;A 3B 表示 Qwen2.5VL-3B-Instruct,基礎 7B 表示 70 億參數(shù)模型。GP 和 GR 分別表示貪婪精度和貪婪召回率。
表 4. 在 OVDEval 上的 OVD 任務結果?;A模型表示 Qwen2.5VL-3B-Instruct,基礎 7B 表示 70 億參數(shù)模型。?RL?SFT 表示 RL 模型相對于 SFT 模型的改進值。我們還列出了當前專門的開放詞匯檢測領域的最優(yōu)模型 OmDet 的性能,以進行全面比較。
在更具挑戰(zhàn)性和綜合性的 OVDEval 基準測試中,從表 4 中可以觀察到,強化學習模型在 9 個檢測類別中的 7 個上優(yōu)于監(jiān)督微調模型,表現(xiàn)出卓越的泛化能力。最值得注意的是,它在需要更深入理解的復雜任務中取得了顯著改進:位置檢測(提高 9.2 個百分點)、關系檢測(提高 8.4 個百分點)和否定處理(提高 3.3 個百分點)。此外,盡管監(jiān)督微調在名人、標志和地標檢測等特定類別中表現(xiàn)出較強的性能,但強化學習在不同的視覺任務中表現(xiàn)出更平衡的改進,表明其在視覺理解方面具有更好的整體泛化能力。
結果表明,雖然監(jiān)督微調在某些特定任務中可能有效,但強化學習提供了更全面的改進。平均 nms-ap 提高 4.51 個百分點(31.01 對 26.50)表明強化學習具有更強的學習可泛化特征的能力。
?與最優(yōu)目標檢測模型的比較:OmDet:OmDet 代表了當前專門的開放詞匯檢測領域的最先進水平。然而,我們的 VLM-R1 模型表明,視覺語言模型可以在幾個關鍵方面超越專門的架構。
強化學習模型和 OmDet 之間的性能差距揭示了不同方法的優(yōu)勢和局限性:
?世界知識和實體識別:在名人檢測中,VLM-R1 達到了 55.0 的 nms-ap,而 OmDet 僅為 1.8。這種巨大的差異(超過 50 個百分點)展示了視覺語言模型預訓練的世界知識的價值,類似的模式也出現(xiàn)在標志和地標檢測中,在這些任務中語義理解至關重要。
?細粒度檢測:我們注意到 OVDEval 中的屬性類別包含許多小物體。在這些小物體檢測場景中,OmDet 表現(xiàn)出更強的性能優(yōu)勢(顏色檢測:22.9 對 4.5)。這表明專門的架構在細粒度、局部特征檢測方面表現(xiàn)出色。
這些比較為未來的研究方向提供了有前景的思路:結合兩種方法的互補優(yōu)勢。專門的目標檢測架構在細粒度檢測和高召回場景中表現(xiàn)出色,而視覺語言模型則帶來了豐富的世界知識。未來的研究可以集中在創(chuàng)建混合架構上,利用專門目標檢測模型的精確定位能力和視覺語言模型的語義理解能力。
5.3 消融實驗和擴展實驗
5.3.1 關于 “獎勵作弊” 的研究
?什么是獎勵作弊:強化學習中的獎勵作弊 [5] 是指智能體利用獎勵函數(shù)中的漏洞,在沒有真正完成預期任務的情況下獲得高獎勵的現(xiàn)象。當獎勵函數(shù)與設計者的實際目標不一致時,就會發(fā)生這種情況,導致智能體采取意外或捷徑行為。例如,在一個迷宮導航任務中,智能體每走一步獲得 +1 獎勵,走出迷宮獲得 +100 獎勵,智能體可能會學會無限循環(huán)行走以積累步數(shù)獎勵,而不是解決迷宮問題。這種行為在技術
上實現(xiàn)了獎勵最大化,但未能達到任務的真正目標。一些文獻 [15, 33, 40, 41, 49, 51] 也在大語言模型研究中探討了這一現(xiàn)象。
?OVD 任務中的獎勵作弊:表 5 展示了我們提出的 odLength 獎勵相對于原生AP_{50}和mAP獎勵的優(yōu)越性能。經過仔細研究,我們發(fā)現(xiàn)了原生AP_{50}和mAP獎勵函數(shù)的關鍵局限性。具體來說,我們觀察到,在使用官方 COCO 評估 API 計算 AP 值時,給定圖像的真實標注中不存在的類別會被排除在評估之外。由于我們的提示設計始終包含所有正類別和幾個負類別,模型被激勵去預測所有類別以最大化獎勵,這就是一種獎勵作弊的情況。在對包含所有 COCO 80 個類別的完整數(shù)據(jù)集進行評估時,這種行為會對精度產生負面影響,因為此時沒有類別會被排除。相比之下,我們的 odLength 獎勵通過為冗余預測引入額外的懲罰項解決了這個問題。這鼓勵模型使預測的對象數(shù)量與真實情況一致,從而促使視覺語言模型產生更精確、更可靠的輸出。
表 5. AP_{50}獎勵、mAP獎勵和 odLength 獎勵的性能比較。所有結果均由基于 Qwen2.5VL-3B-Instruct 訓練的強化學習模型獲得。GP:貪婪精度;GR:貪婪召回率;Cel:名人;Land:地標;Mat:材質;Pos:位置;Rel:關系;Neg:否定。
?完成長度的可視化:圖 6 展示了不同獎勵設置下輸出序列長度的變化。值得注意的是,使用原生AP_{50}獎勵訓練的模型,尤其是那些沒有 KL 正則化的模型,在訓練過程中輸出長度急劇增加。這一趨勢表明存在嚴重的獎勵作弊現(xiàn)象,即模型被激勵去枚舉過多的對象類別以最大化獎勵,導致輸出高度冗余。相比之下,使用我們提出的 odLength 獎勵訓練的模型保持穩(wěn)定且明顯更短的輸出,有效地抑制了不必要的預測。
圖 6:OVD 任務中不同獎勵設置下完成長度的可視化??梢杂^察到,使用原生 AP 獎勵時,模型總是生成過長的完成內容,表明存在冗余預測的對象。
?OD 頓悟時刻:圖 7 展示了有無我們提出的 odLength 獎勵的情況對比。沒有 odLength 獎勵時,視覺語言模型會產生極其冗余的輸出,包括正確但重復以及錯誤但重復的檢測結果。盡管檢測結果質量很差,但原生mAP仍然給予相對較高的獎勵,這表明它容易受到獎勵作弊的影響。然而,有了我們提出的 odLength 獎勵,視覺語言模型被激勵去精確地定位每個對象,展現(xiàn)出一種新興的推理行為,我們稱之為 “OD 頓悟時刻”。面對涉及多個潛在目標(包括硬負樣本)的復雜檢測任務時,模型會自發(fā)地采用兩步策略:它首先通過明確的 “思考” 步驟識別哪些對象確實存在,然后進行準確的邊界框預測。
圖 7:有無 odLength 獎勵的情況對比。左圖:沒有 odLength 獎勵時,模型生成冗余和重復的邊界框,但仍從原生 mAP 獲得高獎勵。每個圓圈表示一個預測的邊界框,相同顏色的圓圈表示坐標相同的邊界框。右圖:有 odLength 獎勵時,模型表現(xiàn)出 “OD 頓悟時刻”,先推理對象是否存在,然后生成準確的邊界框。
5.3.2 訓練數(shù)據(jù)的選擇
表 6 展示了在 COCO 和D^{3}數(shù)據(jù)集上訓練的模型的性能比較。值得注意的是,在D^{3}數(shù)據(jù)集上訓練的模型,即使在與 COCO 訓練數(shù)據(jù)分布一致的域內COCO_{filtered}評估集上,也顯著優(yōu)于在 COCO 數(shù)據(jù)集上訓練的模型。一個關鍵的區(qū)別在于訓練查詢的語義復雜度:COCO 類別通常很簡單,往往由單個單詞標簽組成(例如,人、汽車),而D^{3}查詢在語義上更豐富,通常是完整且含義豐富的句子(示例見圖 7)。我們假設這種語義豐富度的差異在觀察到的性能差距中起著關鍵作用。在強化學習的背景下,具有挑戰(zhàn)性和語義復雜的數(shù)據(jù)對于鼓勵模型發(fā)展更強大的推理鏈至關重要,最終會帶來更優(yōu)異的任務表現(xiàn)。
5.3.3 強化學習在不同模型規(guī)模上的效果
表 7 展示了不同大小模型及其相應強化學習增強版本之間的性能比較。有幾個值得注意的發(fā)現(xiàn):
?關系子任務需要推理能力,在所有模型規(guī)模上應用強化學習后,其性能都有顯著提升(13.1 提升到 21.5,16.2 提升到 20.1,20.6 提升到 27.0),這表明強化學習可以利用視覺語言模型卓越的推理能力。
?另一個推理密集型子任務 —— 否定處理,7B 和 32B 的強化學習模型都實現(xiàn)了性能提升(39.0 提升到 43.1,47.0 提升到 51.7),而 3B 模型則出現(xiàn)了輕微的性能下降(38.7 下降到 37.7)。我們認為這種差異源于基礎模型的固有能力。正如 [34] 所表明的,強化學習主要是為了強化正確的推理模式,而不是注入新的知識。鑒于 7B 和 32B 基礎模型具有更大的能力,強化學習更有可能有效地利用它們潛在的推理能力。
?在顏色子任務中,7B 和 32B 的強化學習模型比 3B 模型表現(xiàn)出更大的性能提升(2.9 提升到 4.5,而 3.0 提升到 7.8,4.4 提升到 7.8)。鑒于 OVDEval 中的顏色子任務主要涉及小物體,這種比較突出了大型視覺語言模型在細粒度視覺細節(jié)方面卓越的視覺感知能力。
?在COCO_{filtered}子集上,所有規(guī)模的模型在貪婪精度上的提升都比貪婪召回率更大。這種差異與 odLength 獎勵的設計一致,odLength 獎勵明確懲罰冗余的邊界框預測。雖然這種調整通過抑制過度預測提高了精度,但由于模型在輸出預測時更加保守,可能會導致召回率略有下降。
?較大的模型通常表現(xiàn)略好。
6. 討論
6.1 強化學習與監(jiān)督微調
在指代表達理解的背景下,強化學習模型不僅在域內任務上實現(xiàn)了穩(wěn)定的性能提升,還將從非推理訓練數(shù)據(jù)中獲得的推理模式泛化到需要更細致理解和復雜推理的域外設置中。這表明強化學習不僅針對已見場景的性能進行優(yōu)化,還鼓勵模型發(fā)展可轉移的能力,以適用于更具挑戰(zhàn)性的未見任務。
此外,在開放詞匯目標檢測實驗中,強化學習模型在復雜的 OVDEval 基準測試的大多數(shù)子任務中優(yōu)于監(jiān)督微調的對應模型,特別是在一些具有挑戰(zhàn)性的子任務中取得了顯著的提升。而且,如 5.3.3 節(jié)所討論的,幾乎所有規(guī)模的模型在這些以推理為重點的任務中都從強化學習中受益,進一步驗證了這種訓練范式在泛化方面的優(yōu)勢。
這些發(fā)現(xiàn)有力地支持了 [12] 提出的結論:“監(jiān)督微調側重于記憶,強化學習側重于泛化”。我們的結果進一步證實了強化學習在增強視覺語言模型泛化能力方面的有效性,尤其是在需要推理模式的場景中。
6.2 通過獎勵工程防止獎勵作弊
在本報告中,我們揭示了在使用原生 mAP 獎勵進行 OVD 任務時出現(xiàn)的獎勵作弊現(xiàn)象,并展示了我們提出的 odLength 獎勵在緩解這一問題方面的有效性。如圖 7 所示,設計不佳的獎勵函數(shù)會激勵模型生成過多且不加區(qū)分的預測,以追求更高的獎勵值。這種行為會導致在評估基準上的性能下降。相比之下,引入 odLength 獎勵顯著抑制了這種冗余輸出,使獎勵信號與評估指標更加一致,更重要的是,出現(xiàn)了 “OD 頓悟時刻”,即模型先推理對象是否存在,然后生成準確的邊界框。
這些結果強調了在強化學習流程中精心設計獎勵的重要性,特別是對于復雜任務,簡單定義的目標可能無法捕捉到期望的模型行為。
6.3 數(shù)據(jù)在推理和泛化中的作用
我們的發(fā)現(xiàn)突出了訓練數(shù)據(jù)在塑造模型性能方面的關鍵作用。我們觀察到,復雜且具有挑戰(zhàn)性的訓練樣本可以有效地激發(fā)視覺語言模型的推理行為,這與 [38] 中的觀察結果一致。相反,低質量或過于簡單的數(shù)據(jù)可能會阻礙學習,甚至對泛化產生負面影響(表 6)。這些見解強調了仔細選擇訓練數(shù)據(jù)的必要性。
同樣重要的是評估數(shù)據(jù)的選擇。全面且具有適當挑戰(zhàn)性的基準對于準確評估模型的推理和感知能力至關重要。在本研究中,我們選擇 LISA-Grounding 和 OVDEval 作為評估數(shù)據(jù)集,因為它們都旨在探究復雜的語義理解以及在復雜的現(xiàn)實世界場景中的泛化能力??傊覀兊慕Y果強調了高質量訓練數(shù)據(jù)和評估數(shù)據(jù)對于提升視覺語言模型能力的重要性。
6.4 從簡單到復雜:為 OVD 任務適配強化學習
在本報告中,我們探索了將 R1 風格的強化學習框架應用于兩個結構相似的任務的可行性:指代表達理解(REC)和開放詞匯目標檢測(OVD),這兩個任務都要求模型根據(jù)文本描述輸出邊界框。盡管它們表面上相似,但我們的對比分析表明,要成功地將強化學習應用于更復雜的 OVD 任務,額外的優(yōu)化是必不可少的。
首先,雖然簡單的獎勵函數(shù)對于 REC 任務就足夠了,但在 OVD 任務中,由于獎勵作弊問題,它無法產生有效的訓練效果,因此需要設計更強大、定制的獎勵,例如我們提出的 odLength 獎勵。其次,盡管在相對簡單的域內數(shù)據(jù)集(即 RefCOCO)上訓練的模型在 REC 任務中泛化效果良好,但同樣的方法在 OVD 任務中卻不能有效轉移。為了解決這個問題,我們?yōu)?OVD 任務精心選擇了更合適的訓練數(shù)據(jù)集(即D^{3}),從而取得了更好的結果。
這些發(fā)現(xiàn)強調了在將強化學習應用于更復雜場景時,進行特定任務優(yōu)化的必要性。
7. 結論
在這項工作中,我們引入了 VLM-R1,這是一個統(tǒng)一的框架,將 R1 風格的強化學習引入視覺理解領域。我們的框架是為視覺語言模型量身定制的,支持靈活的數(shù)據(jù)定義、模型模塊化和訓練可擴展性。使用 VLM-R1,我們成功地將強化學習應用于兩個代表性的視覺理解任務 —— 指代表達理解和開放詞匯目標檢測,在任務性能和域外泛化方面都取得了顯著的提升。除了實證結果,我們還對獎勵工程、數(shù)據(jù)選擇和模型縮放提供了實用的見解,這些對于有效地將強化學習應用于復雜的視覺語言任務至關重要。我們的工作為在視覺語言研究中更廣泛地應用強化學習奠定了基礎。在未來的工作中,我們旨在探索跨任務泛化,并將 VLM-R1 擴展到更具挑戰(zhàn)性的多模態(tài)場景中。
本文轉載自公眾號AIRoobt ,作者:Haozhan Shen等
原文鏈接:??https://mp.weixin.qq.com/s/qq2MpQsd9wnf2l5yYrpT6g??
