自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

MLLMs人類偏好增強(qiáng)對(duì)齊,自然圖像和數(shù)據(jù)圖表分離;視覺感知標(biāo)記,模型自主決定感知內(nèi)容

發(fā)布于 2025-2-27 12:41
瀏覽
0收藏

OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference

2025-02-25|SJTU, Shanghai AI Lab, NJU, FDU, ZJU|??54

???http://arxiv.org/abs/2502.18411v1????
????https://huggingface.co/papers/2502.18411????
????https://github.com/PhoenixZ810/OmniAlign-V???

研究背景與意義

MLLMs人類偏好增強(qiáng)對(duì)齊,自然圖像和數(shù)據(jù)圖表分離;視覺感知標(biāo)記,模型自主決定感知內(nèi)容-AI.x社區(qū)

隨著多模態(tài)大語(yǔ)言模型(MLLMs)的快速發(fā)展,現(xiàn)有的研究主要集中在提升模型的基礎(chǔ)能力,如物體識(shí)別、OCR等,而在與人類偏好對(duì)齊方面存在顯著差距。這種對(duì)齊的缺失直接影響了多模態(tài)對(duì)話交互中的用戶體驗(yàn)。本文提出的OmniAlign-V數(shù)據(jù)集,旨在通過(guò)提供高質(zhì)量、多樣化的訓(xùn)練樣本,顯著提升MLLMs與人類偏好的對(duì)齊能力。此外,本文還引入了MM-AlignBench,一個(gè)專門設(shè)計(jì)用于評(píng)估MLLMs與人類價(jià)值觀對(duì)齊能力的高質(zhì)量基準(zhǔn)。

研究方法與創(chuàng)新

MLLMs人類偏好增強(qiáng)對(duì)齊,自然圖像和數(shù)據(jù)圖表分離;視覺感知標(biāo)記,模型自主決定感知內(nèi)容-AI.x社區(qū)

OmniAlign-V數(shù)據(jù)集的核心創(chuàng)新在于其多樣化的任務(wù)設(shè)計(jì)和高質(zhì)量的數(shù)據(jù)生成流程。首先,數(shù)據(jù)集將圖像分為自然圖像和信息圖表兩大類,并為每類圖像設(shè)計(jì)了不同的任務(wù)類型,如知識(shí)問(wèn)答、推理任務(wù)和創(chuàng)造性任務(wù)。其次,通過(guò)圖像篩選策略,確保所選圖像具有豐富的語(yǔ)義信息,從而生成更具挑戰(zhàn)性和多樣性的問(wèn)答對(duì)。

在數(shù)據(jù)生成過(guò)程中,OmniAlign-V采用了多階段的生成和優(yōu)化流程。對(duì)于自然圖像,使用GPT-4生成多樣化的問(wèn)答對(duì),并通過(guò)后處理步驟進(jìn)一步優(yōu)化答案的質(zhì)量。對(duì)于信息圖表,設(shè)計(jì)了專門的提示詞,確保生成的問(wèn)答對(duì)能夠深入挖掘圖像中的信息。此外,OmniAlign-V還引入了指令增強(qiáng)的知識(shí)問(wèn)答,通過(guò)將復(fù)雜指令融入問(wèn)題中,進(jìn)一步提升模型的對(duì)齊能力。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

MLLMs人類偏好增強(qiáng)對(duì)齊,自然圖像和數(shù)據(jù)圖表分離;視覺感知標(biāo)記,模型自主決定感知內(nèi)容-AI.x社區(qū)

MLLMs人類偏好增強(qiáng)對(duì)齊,自然圖像和數(shù)據(jù)圖表分離;視覺感知標(biāo)記,模型自主決定感知內(nèi)容-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果表明,使用OmniAlign-V進(jìn)行微調(diào)的MLLMs在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)顯著提升。特別是在MM-AlignBench和WildVision等人類偏好對(duì)齊基準(zhǔn)上,模型的性能得到了大幅改善。此外,OmniAlign-V在保持模型基礎(chǔ)能力的同時(shí),進(jìn)一步提升了其在復(fù)雜問(wèn)答任務(wù)中的表現(xiàn)。

通過(guò)對(duì)比實(shí)驗(yàn),OmniAlign-V在多個(gè)任務(wù)類型上的表現(xiàn)均優(yōu)于現(xiàn)有的數(shù)據(jù)集。例如,在知識(shí)問(wèn)答任務(wù)中,OmniAlign-V生成的問(wèn)答對(duì)不僅涵蓋了廣泛的主題,還通過(guò)指令增強(qiáng)的方式提升了模型的指令遵循能力。在創(chuàng)造性任務(wù)中,OmniAlign-V通過(guò)多樣化的任務(wù)設(shè)計(jì),顯著提升了模型在生成創(chuàng)意內(nèi)容方面的表現(xiàn)。

結(jié)論與展望

OmniAlign-V的引入為提升MLLMs與人類偏好的對(duì)齊能力提供了新的解決方案。通過(guò)多樣化的任務(wù)設(shè)計(jì)和高質(zhì)量的數(shù)據(jù)生成流程,OmniAlign-V顯著提升了模型在復(fù)雜問(wèn)答任務(wù)中的表現(xiàn)。未來(lái)的研究可以進(jìn)一步探索如何將OmniAlign-V與其他多模態(tài)數(shù)據(jù)集結(jié)合,以進(jìn)一步提升模型的泛化能力和對(duì)齊效果。

此外,MM-AlignBench的引入為評(píng)估MLLMs的對(duì)齊能力提供了新的基準(zhǔn)。通過(guò)精心設(shè)計(jì)的圖像和問(wèn)題,MM-AlignBench能夠更全面地評(píng)估模型在真實(shí)世界場(chǎng)景中的表現(xiàn)。未來(lái)的工作可以進(jìn)一步擴(kuò)展MM-AlignBench的規(guī)模和多樣性,以覆蓋更多的應(yīng)用場(chǎng)景和任務(wù)類型。

Introducing Visual Perception Token into Multimodal Large Language Model

2025-02-24|NUS|??5

???http://arxiv.org/abs/2502.17425v1????
????https://huggingface.co/papers/2502.17425????
????https://github.com/yu-rp/VisualPerceptionToken???

研究背景與意義

MLLMs人類偏好增強(qiáng)對(duì)齊,自然圖像和數(shù)據(jù)圖表分離;視覺感知標(biāo)記,模型自主決定感知內(nèi)容-AI.x社區(qū)

在當(dāng)今的多模態(tài)大語(yǔ)言模型(MLLM)領(lǐng)域,視覺信息的處理能力直接影響模型在空間推理、細(xì)粒度理解等任務(wù)中的表現(xiàn)。然而,現(xiàn)有的MLLM系統(tǒng)缺乏自主控制其視覺感知過(guò)程的能力,例如無(wú)法選擇性地審查圖像的特定區(qū)域或聚焦于與特定對(duì)象類別相關(guān)的信息。這種局限性導(dǎo)致模型在處理復(fù)雜視覺任務(wù)時(shí),往往依賴于手動(dòng)設(shè)計(jì)的流程,限制了其在實(shí)際應(yīng)用中的靈活性和效率。

本文提出的“視覺感知標(biāo)記”(Visual Perception Token)概念,旨在賦予MLLM一種機(jī)制,使其能夠自主控制視覺感知過(guò)程。通過(guò)設(shè)計(jì)兩種類型的視覺感知標(biāo)記——區(qū)域選擇標(biāo)記(Region Selection Token)和視覺重編碼標(biāo)記(Vision Re-Encoding Token),MLLM可以像生成文本一樣生成這些標(biāo)記,并利用它們觸發(fā)額外的視覺感知?jiǎng)幼鳌_@一創(chuàng)新不僅提升了模型在空間推理和細(xì)粒度理解任務(wù)中的表現(xiàn),還為MLLM在視覺信息處理中的自主性開辟了新的研究方向。

研究方法與創(chuàng)新

MLLMs人類偏好增強(qiáng)對(duì)齊,自然圖像和數(shù)據(jù)圖表分離;視覺感知標(biāo)記,模型自主決定感知內(nèi)容-AI.x社區(qū)

本文的核心創(chuàng)新在于引入了視覺感知標(biāo)記,使MLLM能夠自主控制其視覺感知過(guò)程。具體來(lái)說(shuō),區(qū)域選擇標(biāo)記能夠明確識(shí)別圖像中需要進(jìn)一步感知的特定區(qū)域,而視覺重編碼標(biāo)記則利用其隱藏狀態(tài)作為控制信號(hào),引導(dǎo)額外的視覺感知過(guò)程。這兩種標(biāo)記的引入,使得MLLM在處理視覺信息時(shí),能夠更加靈活和精準(zhǔn)。

區(qū)域選擇標(biāo)記區(qū)域選擇標(biāo)記通過(guò)將圖像劃分為若干單元格,并使用這些單元格的索引來(lái)描述需要進(jìn)一步感知的區(qū)域。這種方法避免了直接使用像素坐標(biāo)的復(fù)雜性,簡(jiǎn)化了模型的訓(xùn)練過(guò)程。具體來(lái)說(shuō),模型生成一組區(qū)域選擇標(biāo)記,指示圖像中需要裁剪的區(qū)域,然后將裁剪后的圖像重新輸入模型進(jìn)行進(jìn)一步處理。這種方法在處理文檔理解、OCR相關(guān)任務(wù)時(shí)尤為有效,因?yàn)樗軌蛑苯犹岣邎D像的分辨率,從而提升任務(wù)表現(xiàn)。

視覺重編碼標(biāo)記視覺重編碼標(biāo)記則通過(guò)觸發(fā)額外的視覺編碼器(如DINO或SAM模型)來(lái)重新編碼原始圖像,并將生成的視覺特征與原始視覺特征結(jié)合,輸入到MLLM中。視覺重編碼標(biāo)記的隱藏狀態(tài)作為控制信號(hào),能夠精細(xì)地控制最終輸入到語(yǔ)言模型的嵌入序列。這種方法在處理需要多次視覺感知的任務(wù)時(shí),表現(xiàn)出顯著的優(yōu)勢(shì)。

訓(xùn)練數(shù)據(jù)與模型架構(gòu)為了訓(xùn)練MLLM使用視覺感知標(biāo)記,本文構(gòu)建了一個(gè)包含829k樣本的訓(xùn)練數(shù)據(jù)集,涵蓋了通用視覺問(wèn)答(General VQA)、細(xì)粒度視覺問(wèn)答(Fine-Grained VQA)、空間推理(Spatial Reasoning)和文本/OCR相關(guān)視覺問(wèn)答(Text/OCR-Related VQA)等任務(wù)。模型架構(gòu)方面,本文在標(biāo)準(zhǔn)的MLLM基礎(chǔ)上,增加了額外的視覺編碼器和投影器,使得模型能夠處理視覺重編碼標(biāo)記生成的額外視覺特征。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

MLLMs人類偏好增強(qiáng)對(duì)齊,自然圖像和數(shù)據(jù)圖表分離;視覺感知標(biāo)記,模型自主決定感知內(nèi)容-AI.x社區(qū)

MLLMs人類偏好增強(qiáng)對(duì)齊,自然圖像和數(shù)據(jù)圖表分離;視覺感知標(biāo)記,模型自主決定感知內(nèi)容-AI.x社區(qū)

本文通過(guò)一系列實(shí)驗(yàn)驗(yàn)證了視覺感知標(biāo)記的有效性。實(shí)驗(yàn)結(jié)果表明,引入視覺感知標(biāo)記后,2B參數(shù)的模型在多個(gè)任務(wù)中的表現(xiàn)顯著提升,甚至超過(guò)了7B參數(shù)的基線模型。具體來(lái)說(shuō),在空間推理和細(xì)粒度視覺問(wèn)答任務(wù)中,2B+VPT模型的性能分別提升了34.6%和32.7%。此外,視覺感知標(biāo)記在零樣本設(shè)置下也表現(xiàn)出色,進(jìn)一步證明了其泛化能力。

實(shí)驗(yàn)結(jié)果在通用視覺問(wèn)答任務(wù)中,2B+VPT模型的表現(xiàn)與7B模型相當(dāng),但在空間推理和細(xì)粒度視覺問(wèn)答任務(wù)中,2B+VPT模型顯著優(yōu)于7B模型。例如,在CUB-200-2011數(shù)據(jù)集上,2B+VPT模型的性能提升了20.7%。此外,在處理低分辨率圖像時(shí),2B+VPT模型的表現(xiàn)也優(yōu)于7B模型,證明了視覺感知標(biāo)記在不同分辨率下的有效性。

案例分析通過(guò)具體案例的分析,本文展示了視覺感知標(biāo)記在處理復(fù)雜視覺任務(wù)時(shí)的優(yōu)勢(shì)。例如,在處理文檔理解任務(wù)時(shí),區(qū)域選擇標(biāo)記能夠精確定位圖像中的小區(qū)域(如簽名、頁(yè)腳等),從而顯著提升OCR任務(wù)的準(zhǔn)確性。在處理空間推理任務(wù)時(shí),視覺重編碼標(biāo)記能夠通過(guò)多次視覺感知,增強(qiáng)模型對(duì)空間關(guān)系的理解。

結(jié)論與展望

本文提出的視覺感知標(biāo)記為MLLM在視覺信息處理中的自主性提供了新的解決方案。通過(guò)區(qū)域選擇標(biāo)記和視覺重編碼標(biāo)記,MLLM能夠更加靈活和精準(zhǔn)地處理視覺信息,顯著提升了其在空間推理、細(xì)粒度理解等任務(wù)中的表現(xiàn)。未來(lái)的研究方向可以進(jìn)一步探索視覺感知標(biāo)記在其他多模態(tài)任務(wù)中的應(yīng)用,以及如何通過(guò)更復(fù)雜的控制機(jī)制,進(jìn)一步提升MLLM的視覺感知能力。

此外,本文的實(shí)驗(yàn)結(jié)果表明,視覺感知標(biāo)記在處理低分辨率圖像時(shí)也表現(xiàn)出色,這為在資源受限環(huán)境下的應(yīng)用提供了新的可能性。未來(lái)的工作可以進(jìn)一步優(yōu)化視覺感知標(biāo)記的訓(xùn)練過(guò)程,探索如何在不增加模型參數(shù)的情況下,進(jìn)一步提升其性能。

總之,視覺感知標(biāo)記的引入為MLLM在視覺信息處理中的自主性開辟了新的研究方向,具有廣泛的應(yīng)用前景。

本文轉(zhuǎn)載自 ??AI研究前瞻??,作者: 胡耀淇

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦