GPT-4o不敵Qwen,無一模型及格!UC伯克利/港大等聯(lián)合團(tuán)隊(duì)提出多模態(tài)新基準(zhǔn):考察多視圖理解能力
多視圖理解推理有新的評(píng)判標(biāo)準(zhǔn)了!
什么是多視圖理解?也就是從不同視角整合視覺信息進(jìn)而實(shí)現(xiàn)理解決策。
想象一下,機(jī)器人在復(fù)雜環(huán)境中執(zhí)行任務(wù),這就需要根據(jù)多個(gè)攝像頭的畫面準(zhǔn)確判斷物體位置、距離和運(yùn)動(dòng)方向,這就依賴于強(qiáng)大的多視圖理解能力。
但過去,由于評(píng)估多視圖推理能力的基準(zhǔn)測(cè)試稀缺,這一領(lǐng)域的研究進(jìn)展相對(duì)緩慢。
來自UC伯克利、憶生科技、香港大學(xué)、紐約大學(xué)、加州大學(xué)戴維斯分校、牛津大學(xué)等多家機(jī)構(gòu)的研究者聯(lián)合提出了All-Angles Bench,旨在全面評(píng)估MLLMs的多視圖理解能力。它涵蓋了90個(gè)真實(shí)場(chǎng)景下,超過2100組人工標(biāo)注的多視圖問答對(duì)。
其評(píng)測(cè)數(shù)據(jù)集以及評(píng)測(cè)代碼現(xiàn)已全部開源。
他們對(duì)27個(gè)領(lǐng)先的多模態(tài)大語言模型進(jìn)行基準(zhǔn)測(cè)試,其中包括Gemini-2.0-Flash、Claude-3.7-Sonnet和GPT-4o。
結(jié)果顯示,多模態(tài)大語言模型與人類水平之間存在顯著差距,并進(jìn)一步發(fā)現(xiàn)模態(tài)大語言模型存在兩種主要的缺陷模式:(1)在遮擋情況下跨視圖對(duì)應(yīng)能力較弱;(2)對(duì)粗略相機(jī)位姿的估計(jì)能力較差。
具體來看:
多視圖理解Bench
數(shù)據(jù)構(gòu)建
All-Angles Bench是一個(gè)包含超過2100組人工標(biāo)注的多視圖問答對(duì)的大規(guī)?;鶞?zhǔn),涵蓋了90個(gè)來源于EGO4D-EXO和EgoHumans數(shù)據(jù)集的真實(shí)世界場(chǎng)景。
數(shù)據(jù)集包含六大具有挑戰(zhàn)性的任務(wù),分別是Counting、Attribute Identification、Relative Distance、Relative Direction、Object Manipulation和Camera Pose Estimation。
這些任務(wù)旨在從多角度考察MLLMs對(duì)3D場(chǎng)景的理解能力,包括物體之間的位置關(guān)系、物體與相機(jī)之間的位置關(guān)系等。
構(gòu)建過程
1. 數(shù)據(jù)收集與問題類型設(shè)計(jì):研究團(tuán)隊(duì)精心挑選了90個(gè)多樣化的多視圖場(chǎng)景,并利用GPT設(shè)計(jì)了上述六大任務(wù)下的相關(guān)問題。
2. 問題篩查與人工標(biāo)注:通過人工標(biāo)注對(duì)問題進(jìn)行細(xì)化,修飾以及答案生成。研究團(tuán)隊(duì)并且使用交叉檢查的方法,確保了問題的清晰度、正確性和相關(guān)性,使得測(cè)試問題能夠準(zhǔn)確地評(píng)估模型的能力。
3. 成對(duì)問題生成與人工質(zhì)量檢查:為了評(píng)估模型在跨視圖一致性方面的表現(xiàn),研究團(tuán)隊(duì)通過重新表述問題或改變視角來生成成對(duì)問題。在生成過程中,保持視角對(duì)應(yīng)關(guān)系不變,并進(jìn)行最后的質(zhì)量控制,以確保成對(duì)問題的有效性。
性能評(píng)估
研究團(tuán)隊(duì)對(duì)27個(gè)領(lǐng)先的MLLMs進(jìn)行了全面評(píng)估,其中包括知名的Gemini-2.0-Flash、Claude-3.7-Sonnet、GPT-4o,以及多種開源和閉源模型。
結(jié)果發(fā)現(xiàn),無論是閉源還是開源的多模態(tài)大語言模型,在多視圖理解能力方面與人類水平之間仍存在顯著差距。
發(fā)現(xiàn)1:對(duì)人類來說簡(jiǎn)單的任務(wù),比如粗略的相機(jī)位姿估計(jì),對(duì)多模態(tài)大語言模型而言卻頗具挑戰(zhàn)。
在Camera Pose Estimation任務(wù)中,人類標(biāo)注者的準(zhǔn)確率達(dá)到88.9%,而Gemini-2.0-Flash、Qwen2.5-VL-72B和InternVL2.5-38B這些頂尖的多模態(tài)大語言模型,其準(zhǔn)確率落后超過50%,這凸顯了其與人類推理水平的顯著差距。
發(fā)現(xiàn)2:某些開源多模態(tài)大語言模型在方向敏感的任務(wù)上超越了閉源模型。
有趣的是,Ovis2-34B和Qwen2.5-VL-72B在Relative Direction和Object Manipulation任務(wù)上的表現(xiàn)甚至優(yōu)于Gemini-2.0-Flash和Claude-3.7-Sonnet等閉源模型。推測(cè)這可能得益于開源模型集成的視頻理解能力和精細(xì)的視覺定位能力,使得在跨視圖跟蹤物體重新定向方面表現(xiàn)出色。
實(shí)驗(yàn)分析
1、多模態(tài)大語言模型在成對(duì)問答中的不一致性
研究人員將模型的回答分為三類:CC(兩個(gè)回答都正確)、WW(兩個(gè)回答都錯(cuò)誤)和IC(一個(gè)正確,一個(gè)錯(cuò)誤)。較高的IC占比表明模型的多視圖理解能力較弱,即簡(jiǎn)單的換個(gè)說法就會(huì)導(dǎo)致其回答出錯(cuò)。
在對(duì)六個(gè)頂尖的多模態(tài)大語言模型進(jìn)行評(píng)估時(shí)發(fā)現(xiàn):
1)GPT-4o在Relative Distance任務(wù)上的IC得分最高(約70%),遠(yuǎn)高于其他模型在該任務(wù)上的IC得分。
2)所有模型在Relative Direction任務(wù)上平均IC得分最高,表明在處理方向變化時(shí)存在困難。
3)Gemini-2.0-Flash和Claude-3.7-Sonnet在各個(gè)任務(wù)中的不一致性較為均衡,而Ovis2-34B和GPT-4o則表現(xiàn)出顯著的基于任務(wù)的不一致性差異。
2、多模態(tài)大語言模型在多視圖對(duì)應(yīng)方面表現(xiàn)不佳
雖然在所有物體在單一視角下都可見(完全可見)的情況下,多模態(tài)大語言模型(MLLMs)往往能夠成功處理任務(wù),但在跨視角整合碎片化信息(部分可見)時(shí),它們有時(shí)會(huì)出現(xiàn)問題。
例如,GPT-4o 有時(shí)會(huì)選擇每個(gè)視角中的最大數(shù)量,而不是對(duì)跨視角的物體數(shù)量進(jìn)行統(tǒng)一統(tǒng)計(jì).
研究人員還在完全可見和部分可見的設(shè)置下,對(duì) GPT-4o、Ovis2-34B 和 InternVL2.5-38B 這三款模型評(píng)估了以下三種方法:1)Zero-Shot CoT;2)Self-Consistency;3)Identification CoT。
雖然思維鏈方法在部分可見的情況下提升了 GPT-4o 的表現(xiàn),但對(duì)于在多視圖計(jì)數(shù)方面本就表現(xiàn)出色的模型(如 InternVL2.5-38B)而言,帶來的提升比較微少。
這表明,僅靠?jī)?yōu)化提示詞并不夠,如果要對(duì)多視圖理解有根本性的性能提升,還需要進(jìn)行專門的多視圖訓(xùn)練。
3、多模態(tài)大語言模型在粗略的相機(jī)位姿估計(jì)方面表現(xiàn)不佳
通過可視化的方法,研究人員讓MLLM推理多視圖下的物體和和相機(jī)的位置與朝向,可以發(fā)現(xiàn),雖然 GPT-4o 和 Gemini-2.0-Flash 對(duì)單張圖像的場(chǎng)景理解表現(xiàn)尚可,但它們?cè)趯?duì)齊不同的相機(jī)視角時(shí)存在困難,難以正確處理視角變換,進(jìn)而影響多模態(tài)大語言模型的多視圖一致性。
論文地址: https://arxiv.org/abs/2504.15280
項(xiàng)目主頁: https://danielchyeh.github.io/All-Angles-Bench/