自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)大模型能力評測基準(zhǔn)全面綜述:理解、推理、生成、應(yīng)用、趨勢 精華

發(fā)布于 2024-11-18 15:42
瀏覽
1收藏

隨著人工智能的快速發(fā)展,多模態(tài)大型語言模型(MLLMs)已經(jīng)成為理解視覺數(shù)據(jù)和語言上下文的關(guān)鍵技術(shù)。這些模型能夠處理和生成結(jié)合文本、圖像和其他模態(tài)的內(nèi)容,但如何有效評估它們的性能一直是個挑戰(zhàn)。本文通過全面回顧現(xiàn)有的多模態(tài)基準(zhǔn)測試,為研究人員提供了評估MLLMs性能的工具和方法,這對于推動人工智能技術(shù)的發(fā)展具有重要意義。

多模態(tài)大型語言模型(MLLMs)的快速發(fā)展為人工智能帶來了重大進(jìn)步,顯著增強(qiáng)了理解和生成多模態(tài)內(nèi)容的能力。盡管以往的研究主要集中在模型架構(gòu)和訓(xùn)練方法上,但對用于評估這些模型的基準(zhǔn)測試的徹底分析仍然鮮有探索。本綜述通過系統(tǒng)回顧211個評估MLLMs的基準(zhǔn)測試,填補(bǔ)了這一空白,涵蓋了理解、推理、生成和應(yīng)用四個核心領(lǐng)域。我們提供了任務(wù)設(shè)計、評估指標(biāo)和數(shù)據(jù)集構(gòu)建的詳細(xì)分析,跨越了多種模態(tài)。我們希望本綜述能夠通過提供基準(zhǔn)測試實踐的全面概述并確定未來工作的有前途的方向,為MLLM研究的持續(xù)進(jìn)步做出貢獻(xiàn)。相關(guān)的GitHub倉庫收集了最新的論文。

1 引言

人工智能(AI)的快速發(fā)展與健壯基準(zhǔn)測試的發(fā)展密切相關(guān)。這些基準(zhǔn)測試提供了評估和比較AI模型性能的客觀指標(biāo)。作為計算機(jī)視覺的先驅(qū),ImageNet提供了一個大規(guī)模且注釋良好的數(shù)據(jù)集,為開發(fā)既高度準(zhǔn)確又廣泛泛化的模型鋪平了道路。AI模型和基準(zhǔn)測試的發(fā)展是互補(bǔ)的。例如,隨著分類基準(zhǔn)測試在數(shù)據(jù)量和類別多樣性方面的增長,其上訓(xùn)練的模型顯著改進(jìn),從而在現(xiàn)實世界中的性能得到了提升。這種特定任務(wù)基準(zhǔn)測試與模型架構(gòu)之間的協(xié)同作用一直是AI實際應(yīng)用的基石。

最近在大型語言模型(LLMs)方面的突破,例如ChatGPT,已經(jīng)在眾多研究領(lǐng)域引起了重大變化,并深刻影響了各種社會和工業(yè)部門。利用LLM作為大腦,多模態(tài)大型語言模型(MLLMs),例如GPT-4v和Gemini,彌合了視覺數(shù)據(jù)和語言上下文之間的差距,使這些模型能夠理解和生成結(jié)合文本、圖像和其他模態(tài)的內(nèi)容。盡管它們具有巨大的潛力,但基準(zhǔn)測試的發(fā)展并沒有總是跟上相應(yīng)MLLMs的演變。傳統(tǒng)基準(zhǔn)測試通常關(guān)注增加數(shù)據(jù)量或類別數(shù)量,難以充分評估MLLMs的多方面能力。

多模態(tài)大模型能力評測基準(zhǔn)全面綜述:理解、推理、生成、應(yīng)用、趨勢-AI.x社區(qū)

這引出了一個自然的問題:我們?nèi)绾斡行У卦u估這些大型AI模型的各種能力和可靠性?目前,用于AI模型的多模態(tài)基準(zhǔn)測試領(lǐng)域豐富多樣(見圖1),包括視覺問答和圖像字幕等多種任務(wù)。這種多樣性無疑推動了MLLMs的發(fā)展,為研究人員提供了多個途徑來探索和改進(jìn)他們的模型。然而,眾多基準(zhǔn)測試是一把雙刃劍。眾多基準(zhǔn)測試的數(shù)量使其難以導(dǎo)航,尤其是對于新手來說:

  • 目標(biāo)不一致:每個基準(zhǔn)測試都有不同的目標(biāo),導(dǎo)致研究領(lǐng)域碎片化。研究人員必須投入大量時間來確定現(xiàn)有基準(zhǔn)測試是否充分測試了MLLMs的能力,這使得開發(fā)新的、一致的基準(zhǔn)測試變得復(fù)雜。
  • 任務(wù)飽和:由多樣化目標(biāo)驅(qū)動的任務(wù)激增,導(dǎo)致了一個壓倒性的領(lǐng)域。這種飽和使得很難辨別真正創(chuàng)新或有影響力的基準(zhǔn)測試,導(dǎo)致寶貴的資源被忽視或利用不足。
  • 指標(biāo)演變與差異:盡管一些研究提出了設(shè)計良好的指標(biāo),但它們的采用受到基準(zhǔn)測試快速演變和頻繁更新的阻礙。這種不一致性迫使研究人員在傳統(tǒng)和新指標(biāo)之間進(jìn)行復(fù)雜的平衡,使得公平比較變得復(fù)雜,并阻礙了對MLLMs的全面評估。為了解決這一差距,我們提出了一個全面的綜述,系統(tǒng)回顧了當(dāng)前多模態(tài)基準(zhǔn)測試的能力、任務(wù)設(shè)計、數(shù)據(jù)集構(gòu)建和特定設(shè)計的指標(biāo)。

本綜述從理解、推理、生成和應(yīng)用的角度審視這些方面:

多模態(tài)大模型能力評測基準(zhǔn)全面綜述:理解、推理、生成、應(yīng)用、趨勢-AI.x社區(qū)

理解。它指的是從多模態(tài)數(shù)據(jù)中提取和整合特征以執(zhí)行跨模態(tài)分析的能力。這涉及解釋視覺表示、識別關(guān)鍵細(xì)節(jié)、把握語義含義并準(zhǔn)確回應(yīng)相關(guān)問題的任務(wù)。評估這些能力是基礎(chǔ)性的,因為它們構(gòu)成了MLLMs在多樣化任務(wù)和應(yīng)用中更廣泛功能的基礎(chǔ)。

多模態(tài)大模型能力評測基準(zhǔn)全面綜述:理解、推理、生成、應(yīng)用、趨勢-AI.x社區(qū)

推理。它超越了基本理解,包括執(zhí)行復(fù)雜推理和跨模態(tài)得出邏輯結(jié)論的能力。這包括需要模型處理和操縱信息的任務(wù),使它們能夠基于跨模態(tài)數(shù)據(jù)解決問題和做出決策。強(qiáng)大的推理能力對于MLLMs處理需要更深層次認(rèn)知處理的復(fù)雜任務(wù)至關(guān)重要。

多模態(tài)大模型能力評測基準(zhǔn)全面綜述:理解、推理、生成、應(yīng)用、趨勢-AI.x社區(qū)

生成。它涉及基于多模態(tài)輸入創(chuàng)建新內(nèi)容,例如從圖像生成描述性文本或從文本描述生成視覺內(nèi)容。這種能力對于需要創(chuàng)造力、連貫性和準(zhǔn)確性的實際應(yīng)用至關(guān)重要。

多模態(tài)大模型能力評測基準(zhǔn)全面綜述:理解、推理、生成、應(yīng)用、趨勢-AI.x社區(qū)

應(yīng)用。它探索了評估MLLMs在現(xiàn)實世界場景中的實際應(yīng)用的基準(zhǔn)測試。它包括具身AI、基于智能體的任務(wù)和特定領(lǐng)域的應(yīng)用,如醫(yī)療診斷和自主系統(tǒng)。這一類別的基準(zhǔn)測試評估模型如何整合多種模態(tài)以在動態(tài)和交互式環(huán)境中執(zhí)行復(fù)雜任務(wù)。

多模態(tài)大模型能力評測基準(zhǔn)全面綜述:理解、推理、生成、應(yīng)用、趨勢-AI.x社區(qū)

2 理解基準(zhǔn)測試

2.1 背景和分類

MLLMs的快速發(fā)展突出了全面基準(zhǔn)測試的必要性,以評估它們在多種數(shù)據(jù)類型中的理解能力[64],[217]。本節(jié)回顧了旨在評估MLLMs感知和理解以各種格式呈現(xiàn)的信息的多模態(tài)理解基準(zhǔn)測試。這些基準(zhǔn)測試對于微調(diào)MLLMs至關(guān)重要,確保它們在現(xiàn)實世界應(yīng)用中的健壯性和泛化能力[77],[189]。最近的理解決基準(zhǔn)測試關(guān)注于評估MLLMs的多個方面,例如,視覺感知、上下文理解和特定模態(tài)理解。

2.1.1 視覺感知

視覺感知能力是理解基準(zhǔn)測試的一個基礎(chǔ)方面。它涉及提取顯著特征和準(zhǔn)確識別和解釋視覺元素(例如,多個對象、文本信息和復(fù)雜的情感或隱含線索)的能力[45]。本節(jié)將視覺感知基準(zhǔn)測試分為三組:低級感知、細(xì)粒度感知、高階感知和綜合感知。

  • 低級感知。MLLMs中的低級感知涉及檢測和解釋基本視覺屬性(例如,顏色、照明、構(gòu)圖)和扭曲(例如,模糊、噪聲、偽影)的能力,這些不需要推理或外部知識[7],[8]。這些低級感知能力對于各種應(yīng)用至關(guān)重要,包括推薦系統(tǒng)、相機(jī)系統(tǒng)指導(dǎo)和視覺質(zhì)量增強(qiáng)[7]。
  • 細(xì)粒度感知。這個核心維度代表了圖像理解的復(fù)雜水平,關(guān)注于視覺內(nèi)容的詳細(xì)和微妙方面。它包括識別和解釋微妙特征的能力,例如文本識別(OCRBench [12])、視覺-語言概念和模式(例如,SPEC [9] 和 MMVP [15]),以及在高分辨率圖像中識別小對象(例如,V* Bench [11] MagnifierBench [21],P2GB [18])。具體來說,MDVPBench [19]專注于評估模型對細(xì)粒度像素級理解的能力,包括詳細(xì)描述、相互關(guān)系分析和跨多樣化視覺元素的復(fù)雜推理。此外,一些基準(zhǔn)測試還強(qiáng)調(diào)視覺-語言對齊,這指的是模型準(zhǔn)確鏈接視覺元素與相應(yīng)文本描述的能力。例如,Eqben [17]專注于“稍微”錯位的對的等變對話,這些對的語義漂移最小,與明顯不匹配的對相比,它們更難區(qū)分。與視覺概念識別和對齊不同,MMUBench [20]評估MLLMs中的機(jī)器遺忘能力,即有效遺忘視覺概念識別的能力。而MM-SAP [14]評估MLLMs的自我意識能力,即理解它們能和不能從圖像中感知什么。
  • 高階感知能力
  • 綜合感知。綜合感知基準(zhǔn)測試全面評估MLLMs執(zhí)行廣泛視覺識別任務(wù)的能力[28]– [30],[32],[34],[36],[38]–[40],涉及各種類型的視覺內(nèi)容。根據(jù)輸入語言類型,基準(zhǔn)測試分為:1) 單語言感知,評估在廣泛使用的英語中跨多樣化內(nèi)容類型的總體視覺識別[29],[35]– [37],[43]。具體來說,MM-Vet專注于不同核心VL能力的整合能力,即識別、OCR、知識、語言生成、空間意識和數(shù)學(xué)。與感知評估不同,DenseFusion-1M [45] 和 IT [33] 創(chuàng)建了超詳細(xì)的圖像注釋,以賦予MLLMs詳細(xì)的文本識別和高分辨率圖像感知能力,以及一些圖像描述質(zhì)量的評估基準(zhǔn),例如DID-Bench,D2I-Bench和LIN-Bench [33]。2) 多語言感知,評估模型理解和解釋多種語言中的視覺內(nèi)容的能力,強(qiáng)調(diào)它們在不同語言和文化背景下的適應(yīng)性[47],[49]–[53]。

2.1.2 上下文理解

它指的是MLLMs理解和解釋受周圍上下文影響的信息的能力。根據(jù)不同的輸入上下文格式,這些基準(zhǔn)測試分為以下幾組:

  • 上下文依賴?yán)斫?。CODIS [54]定義上下文依賴?yán)斫鉃槟P蜏?zhǔn)確識別單個圖像中的視覺元素的能力,帶有補(bǔ)充的上下文文本信息(例如,位置和方向)[54]。這對于使用上下文線索解決歧義至關(guān)重要。
  • 長上下文理解。它評估MLLMs從長序列中保持連貫性和提取相關(guān)信息的能力[55]–[57]。這對于MLLMs尤其重要,特別是在現(xiàn)實世界應(yīng)用中,如多輪對話[219],動作識別[220]和科學(xué)論文理解[93]。
  • 多圖像理解。這種能力涉及比較多個圖像之間的一致性和變化,使模型能夠通過識別模式和解釋復(fù)雜的視覺動態(tài)來獲得更全面的見解。它通常由MuirBench [58],Mementos [59],Mantis-Eval [61]和MMIU [60]評估。
  • 交錯圖像-文本理解。它表示MLLMs有效管理和解釋混合的文本和視覺數(shù)據(jù)流的能力,這對于現(xiàn)實世界設(shè)置中的動態(tài)多媒體交互至關(guān)重要[64],[66]。具體來說,VL-ICLBench [67]評估多模態(tài)上下文學(xué)習(xí)能力,其中MLLMs在不更新模型參數(shù)的情況下,從幾個輸入-輸出示例中學(xué)習(xí)新任務(wù)。而MMMU [68]專注于具有特定領(lǐng)域知識的多學(xué)科多模態(tài)理解。鑒于示例和學(xué)科的交錯圖像-文本格式,這些能力被認(rèn)為是一種交錯圖像-文本理解。

2.1.3 特定模態(tài)理解

在多模態(tài)理解中,MLLMs被評估其處理和整合來自不同感官模態(tài)的輸入的能力,如視頻、音頻、3D數(shù)據(jù)和全模態(tài)環(huán)境。每種模態(tài)都提出了獨特的挑戰(zhàn),要求模型在內(nèi)部分析信息并在不同輸入類型之間進(jìn)行綜合。以下是每種模態(tài)所需的關(guān)鍵能力:

  • 視頻。與靜態(tài)圖像不同,視頻捕獲動態(tài)序列,要求模型解釋空間和時間信息。1) 空間-時間感知。這涉及區(qū)分不同的時間方面,如速度、方向(例如,TempCompass [71])和對象狀態(tài)變化(例如,OSCAR [221]),以及理解隨時間演變的復(fù)雜概念[69]。因為許多人類語言中的關(guān)鍵概念,例如動作,具有超出靜態(tài)圖像范圍的時間維度,VITATECS [72]專注于時間概念理解。2) 長視頻理解。長視頻由于計算復(fù)雜性、內(nèi)存需求以及模型需要維持長期時間連接的需要,提出了額外的挑戰(zhàn)[73]。典型的基準(zhǔn)測試是MovieChat-1K [73],EgoSchema [74],MLVU [77]。TimeChat [75]通常專注于內(nèi)在時間戳定位能力。由于視頻中缺乏豐富的事件,MLLMs可能遭受捷徑偏差。因此,Event-Bench [78]專門評估事件理解,專注于原子、復(fù)合和整體事件理解。3) 綜合感知。Video-MME [80]和Video-Bench [83]包含對時間和空間動態(tài)的全面理解,整合多層感知以完全理解視頻中的連續(xù)性和上下文。AutoEval [81]和WorldNet [79]專注于現(xiàn)實世界場景,分別針對開放式的視頻理解和狀態(tài)轉(zhuǎn)換。此外,ADLMCQ [76]專注于日常生活活動場景,進(jìn)一步豐富了對視頻中日常人類動作的理解。
  • 音頻。音頻數(shù)據(jù)挑戰(zhàn)模型解釋復(fù)雜的聽覺信息,包括語音、音樂和環(huán)境聲音,要求理解時間模式和上下文細(xì)微差別。Dynamic-SUPERB測試了語音模型在廣泛的音頻處理挑戰(zhàn)中的泛化能力,使用指令調(diào)整,強(qiáng)調(diào)它們在零樣本情況下處理多樣化和未見場景的能力。AIR-Bench [86]評估大型音頻-語言模型在音頻中心交互能力上理解并解釋廣泛的音頻信號,從人類語音到自然聲音,通過基于文本的格式促進(jìn)無縫交互。MuChoMusic [87]專注于評估MLLMs中的音樂理解,檢查它們在不同文化和功能背景下把握和推理各種音樂概念的能力。
  • 3D。與2D圖像不同,3D數(shù)據(jù)要求模型理解深度、體積和空間關(guān)系,挑戰(zhàn)它們解釋復(fù)雜形狀和結(jié)構(gòu)[88]。3DCoMPaT-GRIN [88]評估模型的部件感知理解能力,以識別和分割3D對象的部件,這有助于彌合當(dāng)前MLLMs能力和復(fù)雜的人類類感知之間的差距。LLaNA [89]作為NeRFs的第一個基準(zhǔn)測試,專注于模型的NeRFs理解能力,直接處理NeRF權(quán)重,捕獲有關(guān)3D場景的幾何和外觀的詳細(xì)信息。M3DBench [90]通過結(jié)合多模態(tài)輸入擴(kuò)展了3D理解,推動模型整合空間推理和視覺理解,以與復(fù)雜的3D環(huán)境互動。
  • 全模態(tài)理解。它評估MLLMs同時處理和整合來自多種模態(tài)的輸入的能力,展示它們識別跨多樣化感官數(shù)據(jù)的共同模式和相關(guān)性的能力。MCUB [91]評估MLLMs在無縫解釋和綜合來自各種來源的輸入的能力,增強(qiáng)跨模態(tài)推理和泛化。MUIE [92]進(jìn)一步挑戰(zhàn)MLLMs在細(xì)粒度多模態(tài)基礎(chǔ)定位,測試它們在跨文本、音頻、圖像和視頻輸入提取和鏈接信息的熟練程度。

2.2 多模態(tài)任務(wù)和指標(biāo)

理解基準(zhǔn)測試的多模態(tài)任務(wù)和指標(biāo)設(shè)計圍繞兩個主要維度構(gòu)建:面向能力的任務(wù)和指標(biāo),衡量特定能力,以及面向格式的指標(biāo),確保評估與生成的輸出類型一致。更多詳細(xì)信息顯示在表1中。

2.2.1 面向能力的任務(wù)和指標(biāo)

本節(jié)概述了各種理解基準(zhǔn)測試的任務(wù)和指標(biāo)設(shè)計。低級感知。正如Q-bench [7]所提出的,低級屬性識別涉及與扭曲和其他低級屬性相關(guān)的問題,例如光線。除了單圖像,Q-bench+ [8]進(jìn)一步引入了圖像對之間的比較。這兩個基準(zhǔn)測試然后擴(kuò)展到低級描述任務(wù),使MLLMs描述圖像的質(zhì)量和其他低級信息。為了評估精確的質(zhì)量評估能力,Q-Bench [7]引入了一種基于softmax的質(zhì)量評估策略,而不是直接解碼標(biāo)記,提取“好”和“差”結(jié)果的對數(shù),并通過在這兩個對數(shù)之間應(yīng)用softmax池化來預(yù)測可量化的分?jǐn)?shù)。

細(xì)粒度感知。

這些任務(wù)旨在評估模型解釋和分析視覺內(nèi)容的詳細(xì)和微妙方面的能力。具體來說,給定輸入圖像,子任務(wù)可以分為

1) 多類識別:識別圖像中是否存在某些對象[9],[10]。

2) 對象屬性:識別對象的特定屬性,如顏色、紋理和狀態(tài)[11],[15]。

3) 對象計數(shù):確定圖像中特定對象的實例數(shù)量[9]。

4) 對象位置:表示對象相對于圖像的位置[9],[13]。由于上下文在對象檢測中的重要性,CODE基準(zhǔn)測試[13]通過上下文豐富的環(huán)境更好地評估模型,增強(qiáng)了任務(wù)設(shè)計。

5) 空間關(guān)系:推理兩個或多個對象之間的空間關(guān)系[9]。

6) 光學(xué)字符識別(OCR):識別查詢區(qū)域內(nèi)的文本[12]。具體來說,CV-Bench [16]將2D細(xì)粒度感知擴(kuò)展到3D,并引入了深度順序和相對距離任務(wù)。與視覺概念識別不同,MM-SAP [14]設(shè)計了三個自我意識評估任務(wù):BasicVisQA測試“已知已知”問題,通過提出五個多項選擇答案,包括一個拒絕選項。KnowVisQA評估視覺知識(例如,品牌、地標(biāo))與類似的多項選擇輸出。BeyondVisQA關(guān)注“已知未知”,要求模型識別無法回答的問題并選擇拒絕選項。

高階感知。

1) 情感識別:從圖像中識別情感表達(dá)。EmoBench [26]擴(kuò)展了這些通用情感任務(wù),增加了情感應(yīng)用任務(wù)(例如,幽默、仇恨和諷刺檢測)。

2) 含義理解:給定圖像和一組多項選擇問題,具有固定的可能答案,模型必須選擇最能解釋圖像的視覺隱含含義[24]或價值[25]的正確答案。

3) 美學(xué)理解:如UNIAA [22]所定義,它首先通過問題從圖像中識別美學(xué)屬性(例如,內(nèi)容和主題),然后提供美學(xué)描述,最后通過數(shù)量分?jǐn)?shù)進(jìn)行美學(xué)評估。AesBench [23]進(jìn)一步結(jié)合了美學(xué)解釋,使MLLMs解釋和分析美學(xué)質(zhì)量的原因。

綜合感知。

例如LVLMeHub [28],TinyLVLM [29],LAMM [30]和OwlEval [31]的基準(zhǔn)測試,結(jié)合了人類判斷或基于GPT的評估,以提供全面的評估,但可能會引入偏差。為此,像MME [32]和MMBench [34]這樣的基準(zhǔn)測試使用了像二元判斷陳述或多項選擇問題這樣的結(jié)構(gòu)化格式,以提供更客觀的評估。然而,相對較小的規(guī)??赡軐?dǎo)致不穩(wěn)定性。因此,SEED-Bench [35],以及SEED-Bench2 [36]和SEED-Bench-2-Plus [37],在多樣化多模態(tài)生成、層次化和文本豐富的場景中分別提供了大規(guī)模評估。超越傳統(tǒng)的識別任務(wù),像Blink [38]和MMTBench [39]這樣的基準(zhǔn)測試測試了微妙的感知能力和多模態(tài)推理,而MM-Vet [40]設(shè)計了能力整合任務(wù)。然而,多項選擇格式有時未能捕捉到現(xiàn)實世界的復(fù)雜性,這更好地由開放式基準(zhǔn)測試如TouchStone [41]和OpenVQA [42]解決。ChEF [43]引入了相對ICL準(zhǔn)確性和相對魯棒性,用于多選QA,以衡量上下文學(xué)習(xí)和魯棒性,特別強(qiáng)調(diào)超越隨機(jī)猜測的改進(jìn)。M3GIA [49]引入了通用智能準(zhǔn)確性(GIA)指標(biāo),利用驗證性因子分析來驗證MLLMs的認(rèn)知結(jié)構(gòu)與人類智能的一致性。然而,傳統(tǒng)評估方法在多模態(tài)訓(xùn)練期間難以處理數(shù)據(jù)泄露,MMStar [46]通過引入兩個指標(biāo)來解決這個問題:多模態(tài)增益(MG)衡量視覺輸入的改進(jìn),以及多模態(tài)泄漏(ML)檢測意外的數(shù)據(jù)暴露,確保公平比較。

上下文依賴?yán)斫狻?/strong>

衡量這種能力的典型任務(wù)是上下文依賴圖像消歧:給定一個查詢和一個帶有兩種不同上下文的圖像,MLLMs需要生成正確的響應(yīng)[54]。為了更好地衡量在不同上下文中識別的能力,CODIS [54]設(shè)計了上下文意識指標(biāo)。

多圖像理解。

它通常結(jié)合多圖像輸入任務(wù),如動作識別和圖表理解[58],[60]。具體來說,Mementos [59]專注于復(fù)雜任務(wù)的監(jiān)控和解密圖像序列中對象的位置變化。它使用GPT-4可靠地提取和標(biāo)準(zhǔn)化AI生成的描述中的對象和行為關(guān)鍵詞,將這些列表與人類基準(zhǔn)進(jìn)行比較以評估準(zhǔn)確性。

長上下文理解。

最近的基準(zhǔn)測試[55]–[57]采用針 haystack任務(wù):這項任務(wù)通過在長無關(guān)圖像和文本語料庫(haystack)中準(zhǔn)確找到相應(yīng)的信息(針)來評估MLLM的長上下文理解能力。具體來說,MMNeedle [55]引入了“圖像haystack”,其中模型必須定位由給定標(biāo)題描述的特定子圖像。MileBench [56]擴(kuò)展了這個概念,包括“文本針在haystack中”和“圖像針在haystack中”任務(wù)。在文本任務(wù)中,模型從密集的多模態(tài)上下文中提取7位密碼,而在圖像任務(wù)中,它識別并檢索嵌入在圖像中的文本,需要OCR能力。MM-NIAH [57]進(jìn)一步測試多模態(tài)文檔中的長上下文理解,專注于跨不同“多模態(tài)針”的檢索、計數(shù)和推理任務(wù)。MMNeedle [55]引入了一組評估指標(biāo),即存在準(zhǔn)確性、索引準(zhǔn)確性和精確準(zhǔn)確性,全面評估MLLMs在序列、圖像和子圖像級別的表現(xiàn)。

交錯圖像-文本理解。

通常,給定交錯的圖像-文本內(nèi)容(例如,上下文示例),模型必須有效地響應(yīng)查詢(例如,QA或字幕格式)[24],[65],[66],[68]。VEGA [63]引入了交錯圖像-文本理解任務(wù),其中模型不僅基于更長的圖像-文本序列回答問題,還識別與響應(yīng)相關(guān)的特定圖像索引。VL-ICLBench [67]通過包括八個任務(wù)擴(kuò)展了這一點,評估多模態(tài)上下文學(xué)習(xí)能力。

空間-時間感知。

VideoNIAH [69]涉及檢索、排序和計數(shù)插入到視頻序列中的視覺“針”,挑戰(zhàn)模型準(zhǔn)確處理和分析長上下文視頻中的空間和時間信息。對于時間感知,VTATES [72]通過使用反事實描述來識別六個細(xì)粒度方面——方向、強(qiáng)度、序列、定位、組合性和類型——同時保持靜態(tài)內(nèi)容一致,修改只有時間信息。

長視頻理解。

Event-Bench [78]專注于以事件為導(dǎo)向的長視頻理解,并提出了層次化任務(wù)分類法,包括原子事件理解(例如,事件描述)、復(fù)合事件理解(例如,時間推理)和整體理解(例如,上下文推理)。由于一些長期視頻任務(wù)實際上是短期任務(wù)的偽裝,EgoSchema [74]引入了時間證書的概念,以衡量視頻剪輯的內(nèi)在時間復(fù)雜性。

綜合視頻理解。

Video-Bench [83]包括10個精心設(shè)計的任務(wù),涵蓋三個不同的層次:視頻專有理解、基于先驗知識的問題回答和理解與決策。MVBench [84]系統(tǒng)地將靜態(tài)圖像任務(wù)轉(zhuǎn)換為動態(tài)視頻任務(wù),使評估在開放世界場景中的一系列時間技能成為可能。與專注于計算任務(wù)(例如分類)的現(xiàn)有基準(zhǔn)測試不同,PerceptionTest [82]強(qiáng)調(diào)技能(記憶、抽象、物理、語義)和推理類型(描述性、解釋性、預(yù)測性、反事實性)在視頻、音頻和文本模態(tài)上的跨模態(tài),提供了一個全面且高效的評估工具。

音頻理解。

Dynamic-SUPERB [85]專門關(guān)注六個維度的分類任務(wù)——內(nèi)容、說話者、語義、退化、副語言學(xué)和音頻處理——使用指令調(diào)整來評估模型處理已見和未見場景的能力。AIR-Bench [86]獨特地結(jié)合了基礎(chǔ)和基于聊天的音頻任務(wù)的層次化評估,涵蓋所有音頻類型。

3D理解。

為了評估3D MLLMs的部件感知理解能力,3DCoMPaT-GRIN [88]引入了兩個新任務(wù):部件感知點定位和部件感知點定位字幕。在部件感知點定位中,模型根據(jù)用戶指令預(yù)測部件級別的分割掩模。在部件感知點定位字幕中,模型生成一個詳細(xì)的字幕,包括部件級別的描述,每個描述對應(yīng)一個分割掩模。對于NeRF理解,LLaNA [89]專注于像字幕和QA這樣的任務(wù),以評估模型如何通過NeRF權(quán)重解釋3D場景的幾何和逼真表示。

全模態(tài)理解。

MCUB [91]評估模型識別來自不同模態(tài)的輸入實體的共同點的能力,挑戰(zhàn)它從四個給定選項中選擇最合適的答案。具體來說,MUIE [92]強(qiáng)調(diào)視覺定位,并引入了地面多模態(tài)通用信息提取的概念,涉及跨文本、圖像、音頻和視頻輸入提取和關(guān)聯(lián)信息,確保實體和事件準(zhǔn)確鏈接到它們對應(yīng)的模態(tài)。

2.2.2 面向格式的指標(biāo)設(shè)計

在評估MLLMs時,使用不同的輸出格式來評估模型準(zhǔn)確和適當(dāng)?shù)仨憫?yīng)各種類型查詢的能力。根據(jù)格式,指標(biāo)可以分為以下類別:

  • 二元/多項選擇:1) 二元選擇。模型以簡單的是/否響應(yīng),測試其直接決策的能力。2) 多項選擇:模型被呈現(xiàn)幾個可能的答案,通常被鼓勵選擇一個字母(例如,A/B/C/D)[21]。這種格式有效地測試了模型在區(qū)分密切相關(guān)的選項并做出明確選擇的能力。典型的指標(biāo)包括準(zhǔn)確性、精確度和召回率。為了增強(qiáng)魯棒性,MMBench [34]引入了CircularEval指標(biāo),其中模型必須在多次通過中正確回答問題,以測試其在多次傳遞中的一致性。具體來說,如果MLLMs輸出自由形式的文本,一個LLM(例如,GPT-4)被用作選擇提取器,將自由形式的答案與預(yù)定義的選擇匹配[34]。相比之下,SEED系列[35]–[37]采用了答案排名策略[222],[223]來評估模型性能,評估生成的內(nèi)容與正確選擇匹配的可能性。為了從MLLMs的輸出中提取選擇,MMTBench [39]遵循OpenCompass [224]中的三步協(xié)議:檢查選項字母,用ChatGPT檢查選項內(nèi)容,并將選擇設(shè)置為默認(rèn)選項字母,以避免隨機(jī)分配[68]。
  • 定義形式:要求模型以定義的格式輸出。例如,生成的格式被定義為(索引,行,列)的元組在MMNeedle [55]中。具體來說,對于分類任務(wù):準(zhǔn)確性用于評估正確預(yù)測標(biāo)簽的百分比。對于檢測和定位任務(wù),平均精度均值(mAP)用于評估模型預(yù)測對象標(biāo)簽和邊界框的準(zhǔn)確性。
  • 自由形式:與二元和多項選擇格式不同,這些格式是預(yù)定義的,自由形式響應(yīng)允許模型生成開放式答案[21],[42]。這種格式更好地反映了現(xiàn)實世界的場景,用戶通常不提供預(yù)定義的選項,模型必須依賴于其理解和創(chuàng)造力來生成上下文適當(dāng)?shù)捻憫?yīng)。像BLEU和ROUGE-L這樣的指標(biāo)通過測量與參考文本的n-gram重疊來評估生成的字幕的質(zhì)量[23],[30],[47],[56]。受到LLM-asa-Judge [225]的啟發(fā),一些基準(zhǔn)測試采用了基于LLM的評估,利用LLMs(例如,GPT-4,Gemini)來驗證生成的響應(yīng)的準(zhǔn)確性和質(zhì)量,確保與人類評估的一致性。例如,在MM-VET [40]中,GPT-4作為主要評估者,根據(jù)正確性在0到1的范圍內(nèi)對開放式輸出進(jìn)行評分。AutoEval [81]利用GPT-4根據(jù)特定實例的提示和規(guī)則評估答案的正確性。為了確保魯棒性,QBench [7]通過GPT輔助的5輪評估過程來評分MLLM-描述的完整性、精確性和相關(guān)性,類似于MM-Bench [34]。而TinyLVLM [29]引入了ChatGPT集成評估(CEE)指標(biāo),使用多樣化的提示和集成投票。

3 推理基準(zhǔn)測試

3.1 背景和分類

推理,從給定信息和獲得的知識中得出結(jié)論的能力,是人類水平機(jī)器智能的基石。隨著MLLMs的不斷進(jìn)步,評估它們在多樣化模態(tài)和場景中的推理能力已成為迫切需要和有價值的研究課題。本節(jié)提供了專門設(shè)計來評估MLLMs推理能力的基準(zhǔn)測試的全面回顧,這些能力對于它們在需要復(fù)雜決策的環(huán)境中部署至關(guān)重要。

為了系統(tǒng)分析MLLMs推理評估的格局,我們將現(xiàn)有的基準(zhǔn)測試分為五個不同的組,基于它們的主要關(guān)注點。請注意,這些組并不是相互排斥的。在以下小節(jié)中,我們介紹每個類別并討論其重要性。

特定領(lǐng)域推理 [93]–[109],[109]–[117]指的是在特定領(lǐng)域或?qū)W科內(nèi)應(yīng)用專門知識和邏輯過程。與通用推理不同,它需要對特定領(lǐng)域的獨特概念、規(guī)則和方法論有深入的理解。這種推理形式在不同學(xué)科和各種復(fù)雜性水平上都是基礎(chǔ)性的。為特定領(lǐng)域推理設(shè)計的基準(zhǔn)測試不僅調(diào)查MLLMs獨立解決特定領(lǐng)域任務(wù)的潛力,還探索MLLMs是否可以支持并增強(qiáng)特定領(lǐng)域內(nèi)人類專家的能力。

關(guān)系推理 [118]–[129]指的是MLLMs識別、操縱和推理不同實體或概念之間關(guān)系的能力?,F(xiàn)有工作主要涉及三種類型的關(guān)系:i) 空間關(guān)系——理解實體在物理上相對于彼此的位置或方向;ii) 時間關(guān)系——把握不同狀態(tài)之間事件的順序或時間的流逝;iii) 邏輯關(guān)系——理解概念或命題之間的抽象聯(lián)系或依賴性;以及iv) 相對關(guān)系——理解對象、場景或情境之間的比較概念。關(guān)系推理的基準(zhǔn)測試評估MLLMs通過理解元素之間的聯(lián)系而不是僅僅它們的個體屬性來解決問題的能力。這些評估對于開發(fā)能夠處理復(fù)雜、相互連接的數(shù)據(jù)和任務(wù)的AI系統(tǒng)至關(guān)重要,這些任務(wù)需要對信息關(guān)系有細(xì)微的理解。

多步推理 [101],[130]–[132]對于需要導(dǎo)航一系列相互連接的邏輯步驟的復(fù)雜認(rèn)知任務(wù)至關(guān)重要。相關(guān)基準(zhǔn)測試關(guān)注兩個關(guān)鍵方面:i) 使用預(yù)定義或上下文依賴規(guī)則進(jìn)行推理;以及ii) 通過思維鏈(CoT,將復(fù)雜任務(wù)分解為更簡單、可管理的子任務(wù))進(jìn)行推理。邏輯推理要求應(yīng)用明確的邏輯規(guī)則從給定的前提中得出結(jié)論。與此同時,思維鏈允許MLLM通過將困難問題分解為一系列更簡單、更直接的任務(wù)來接近它。這一類別的基準(zhǔn)測試測試MLLMs在廣泛的推理序列中保持邏輯連貫性的能力,確保每一步都邏輯地跟隨上一步并與任務(wù)的總體目標(biāo)一致。

反思推理 [133]–[137]包括MLLMs評估和提煉思想、知識等方面的能力。當(dāng)前的努力主要調(diào)查三個方面:i) 反事實思維——考慮替代場景和結(jié)果;ii) 分析性提問——制定和評估獲取知識的查詢;以及iii) 知識推理——評估現(xiàn)有知識并更新非事實、過時或未知的知識。反思推理對于開發(fā)能夠基于反饋調(diào)整策略并提高決策準(zhǔn)確性的MLLMs至關(guān)重要。關(guān)注這種推理類型的基準(zhǔn)測試衡量MLLMs在自我評估、識別和調(diào)整偏差以及進(jìn)行必要的更正以提高可靠性和性能方面的有效性。

3.2 多模態(tài)任務(wù)和指標(biāo)

推理基準(zhǔn)測試的輸出格式與理解基準(zhǔn)測試相似。本節(jié)僅介紹與推理能力相關(guān)的任務(wù)和評估指標(biāo)。更多詳細(xì)信息可以在表2中找到。特定領(lǐng)域推理。當(dāng)前特定領(lǐng)域推理的任務(wù)可以根據(jù)它們所需的專門知識分為幾個組:i) 數(shù)學(xué)中心任務(wù)[95]–[97],[101],[105]。它們通常基于現(xiàn)有的基于文本的數(shù)學(xué)推理數(shù)據(jù)集,結(jié)合額外的模態(tài),如圖形的視覺表示。ii) 多語言和中文多學(xué)科中心任務(wù)[94],[100],[103],[107],[110],[116]。它們通常來源于中文或多種語言環(huán)境中的多學(xué)科問題,從高中到博士水平的考試、筆記等。iii) 科學(xué)論文中心任務(wù)[93],[98],[115]。這些是專門為評估MLLMs在解釋各種領(lǐng)域科學(xué)研究文章中的復(fù)雜圖形和表格方面的熟練程度而設(shè)計的。iv) 其他專門領(lǐng)域任務(wù)。由于空間限制,我們列出這一類別的額外任務(wù),關(guān)注于地理和地理空間推理[102]、思維導(dǎo)圖結(jié)構(gòu)分析[104]、圖表圖像分析[108],[109],[109],[113],[114],表格圖像分析[111],[117],網(wǎng)頁分析[112],文檔分析[99],以及計算密集型場景[106]。所有列出任務(wù)的評估指標(biāo)主要關(guān)注中間結(jié)果和最終答案的準(zhǔn)確性。

關(guān)系推理。MLLMs的關(guān)系推理任務(wù)可以廣泛分為三種主要類型。第一種類型側(cè)重于預(yù)測關(guān)系,無論是實體之間還是模式之間。以實體為中心的任務(wù)[121]涉及檢測對象及其成對關(guān)系,而以模式為中心的任務(wù)[127],[129]旨在從給定的視覺模式中推斷關(guān)系,以預(yù)測后續(xù)模式。召回率和準(zhǔn)確性分別用于評估以實體為中心和以模式為中心的任務(wù)。第二類涉及空間中心關(guān)系,如地面空間推理[122],[128],3D空間定位[125]和細(xì)粒度空間推理[120]。像基于IoU(交并比)的準(zhǔn)確性這樣的指標(biāo)用于評估性能。第三類涉及時間中心關(guān)系,如基于不同視頻片段回答問題[123],或執(zhí)行時間和語言定位[124]。這些任務(wù)的常見評估指標(biāo)包括準(zhǔn)確性、BLEU、BERT分?jǐn)?shù)和召回率。最后,以比較為中心的任務(wù)[118]側(cè)重于在對象、場景或情境之間進(jìn)行相對比較。準(zhǔn)確性用于評估。

多步推理。現(xiàn)有的多步推理任務(wù)可以廣泛分為兩種主要類型:基于規(guī)則的任務(wù)和思維鏈(CoT)任務(wù)。在基于規(guī)則的任務(wù)[101],[131]中,模型被期望應(yīng)用預(yù)定義的規(guī)則或推斷底層模式來解決問題。例如,在尋找數(shù)學(xué)謎題中缺失值的任務(wù)[101]中,模型必須從給定的信息中推斷出控制規(guī)則。另一方面,CoT任務(wù)[130],[132]強(qiáng)調(diào)模型將問題分解為一系列邏輯的、順序的步驟的能力。一個突出的例子是VisualCoT [130],它要求模型識別關(guān)鍵圖像區(qū)域并通過問題逐步推理。VisualCoT提供了中間邊界框和推理注釋以促進(jìn)評估。VideoCoT [132]共享CoT推理的相同精神,但側(cè)重于視頻而不是圖像。這些基準(zhǔn)測試的指標(biāo)通常評估最終解決方案的準(zhǔn)確性以及模型的中間推理步驟與人類注釋的地面真實情況的一致性。

反思推理。反思推理任務(wù)可以廣泛分為三種類型:反事實思維、分析性提問和知識編輯。在反事實VQA [133]中,MLLMs被要求通過基于給定事實的假設(shè)場景生成答案,從而評估它們執(zhí)行反事實推理的能力。例如,一個典型的問題可能會問“如果地面是干的,人們戴著太陽帽而不是舉著傘,天氣可能會是什么?”。LOVA3 [138]認(rèn)為,現(xiàn)有工作主要集中在問答上,而留下了分析性提問——包括提問和評估技能——在很大程度上未被探索。前兩種任務(wù)類型的評估通常使用標(biāo)準(zhǔn)指標(biāo),如準(zhǔn)確性、精確度和F1分?jǐn)?shù)。第三種類型的任務(wù),知識編輯[134]–[137],評估MLLMs更新知識的能力,特別是當(dāng)面對過時或不準(zhǔn)確的信息時。例如,VLKEB [135]引入了一跳和多跳推理任務(wù),用于知識編輯。知識編輯的指標(biāo)更為微妙,包括可靠性、普遍性、局部性、可移植性和一致性等措施。

4 生成基準(zhǔn)測試

4.1 背景和分類

MLLMs的進(jìn)步不僅提高了理解能力,還提高了在各種格式和上下文中的生成能力。與簡單的文本到圖像生成基準(zhǔn)測試不同,本節(jié)探討了旨在評估MLLMs不僅生成連貫、一致的格式,而且生成健壯、真實和安全內(nèi)容的能力的基準(zhǔn)測試。

4.1.1 以格式為中心的生成

  • 交錯圖像-文本生成。它代表了MLLMs無縫生成視覺和文本內(nèi)容的能力,這些內(nèi)容不僅同步,而且上下文相關(guān)且視覺準(zhǔn)確[64]。它挑戰(zhàn)模型在生成的輸出中保持?jǐn)⑹龊鸵曈X連貫性。最近的基準(zhǔn)測試,如MMC4 [64],OBELICS [65]和CoMM [66]在構(gòu)建通用交錯圖像-文本對方面發(fā)揮了關(guān)鍵作用,這些對對于預(yù)訓(xùn)練或微調(diào)這些能力在MLLMs中很有用。超越這一點,OpenLEAF [141]引入了開放領(lǐng)域的交錯圖像-文本生成,支持多樣化格式并擴(kuò)大了MLLMs的應(yīng)用潛力。在更專門的領(lǐng)域,StorySalon [139]和StoryStream [140]專注于視覺敘事,強(qiáng)調(diào)特定風(fēng)格的交錯內(nèi)容創(chuàng)作。此外,StoryStream [140]通過生成長序列,提出了更具挑戰(zhàn)性的設(shè)置。
  • 代碼生成。它反映了MLLMs自主生成語法正確且功能精確的編程代碼的能力[227]。這個基準(zhǔn)測試測試了MLLMs解釋軟件需求和算法約束的能力,生成的代碼不僅能夠編譯,而且能夠根據(jù)指定的功能執(zhí)行。早期的基準(zhǔn)測試,如CodeXGLUE [227],DeepCode [228]和Codex [229]在通過結(jié)構(gòu)化的問題陳述開發(fā)和細(xì)化這些能力方面發(fā)揮了關(guān)鍵作用。更近期的基準(zhǔn)測試,如Web2Code [142]和PlotCode [143],將這些挑戰(zhàn)擴(kuò)展到多模態(tài)代碼生成,解決了代碼必須與多樣化數(shù)據(jù)形式交互或從其生成的復(fù)雜場景,如網(wǎng)頁和圖形圖表。
  • 指令遵循。它表示生成與特定指令一致的內(nèi)容的能力,這對于自動化內(nèi)容創(chuàng)作、編程和交互式系統(tǒng)基準(zhǔn)測試中的應(yīng)用至關(guān)重要。IFEval [230]評估MLLMs遵循清晰、可驗證指令的能力,而InfoBench [231]使用分解要求遵循比率(DRFR)將復(fù)雜指令分解為更小、更易于管理的組件。然而,兩者主要關(guān)注基于文本的場景。相比之下,LLaVA-Bench [148]專注于視覺指令遵循,而DEMON [144]主要以交錯的視覺-語言指令為特色,這與傳統(tǒng)的單圖像數(shù)據(jù)集不同。隨后,VisIT-Bench [145]評估指令遵循以響應(yīng)真實世界的圖像上下文、開放式請求。它還強(qiáng)調(diào)評估指令條件字幕和推理。此外,CoIN [146]通過檢查持續(xù)的指令調(diào)整來擴(kuò)展評估,調(diào)查模型在學(xué)習(xí)新知識時如何保留現(xiàn)有技能。與此同時,MIA-Bench [147]探索了MLLMs遵循分層指令并生成上下文適當(dāng)響應(yīng)的能力,提供了對指令遵循和適應(yīng)性更細(xì)致的視角。

4.1.2 以內(nèi)容為中心的生成

幻覺緩解。術(shù)語“幻覺”通常指的是生成的響應(yīng)包含在視覺內(nèi)容中不存在的信息的情況[232]–[235]。減少幻覺對于需要高事實保真度的應(yīng)用至關(guān)重要,如新聞寫作和學(xué)術(shù)內(nèi)容生成。在MLLMs領(lǐng)域,幻覺通常被分為三種不同的類型:對象、屬性和關(guān)系[235]–[237]。

  • 對象幻覺。當(dāng)模型生成在視覺輸入中不存在或不相關(guān)的對象時,就會發(fā)生對象幻覺[160]。這些錯誤通常源于對視覺元素的誤解或過度泛化,導(dǎo)致在生成的描述中包含與目標(biāo)圖像不一致的對象。這為視覺-語言(VL)模型提出了重大挑戰(zhàn),因為它通常導(dǎo)致無意義或不忠實的響應(yīng)[172],損害了輸出的事實完整性。解決對象幻覺對于需要精確對象識別和準(zhǔn)確場景理解的任務(wù)至關(guān)重要,如自動圖像字幕和視覺推理應(yīng)用。
  • 屬性幻覺。屬性幻覺指的是錯誤生成對象特征[32],如狀態(tài)(例如,顏色或形狀),數(shù)量(例如,圖像中對象出現(xiàn)多次)或動作(例如,人類或動物的移動)[158],這些都偏離了視覺內(nèi)容中呈現(xiàn)的。當(dāng)模型誤解圖像中現(xiàn)有對象的屬性時,就會出現(xiàn)這些錯誤,導(dǎo)致不準(zhǔn)確性,如生成錯誤的動作或數(shù)量。這種誤解可能會誤導(dǎo)下游任務(wù),包括細(xì)粒度識別和產(chǎn)品檢索,因此在感知模型中緩解這些問題至關(guān)重要,以確保準(zhǔn)確性和可靠性。
  • 關(guān)系幻覺。當(dāng)模型不準(zhǔn)確地推斷對象之間的關(guān)系時,就會產(chǎn)生關(guān)系幻覺,例如空間排列、互動或因果聯(lián)系,這些在視覺輸入中并未描繪。這種類型的幻覺需要更復(fù)雜的推理能力,因為它涉及圖像中的至少兩個對象,并且可以通過感知(例如,空間術(shù)語如“在...上”或“在...后面”)或認(rèn)知角度(例如,抽象動作如“吹”或“觀看”)[162]發(fā)生。這些錯誤可能會嚴(yán)重?fù)p害模型的推理能力,特別是在需要多模態(tài)分析或視頻理解的任務(wù)中。減少關(guān)系幻覺對于提高生成輸出的連貫性和可靠性至關(guān)重要。具體來說,對于視頻模態(tài),VideoHallucer [171]檢測視頻-語言模型中的幻覺,并將其分為內(nèi)在和外在類型,包括對象-關(guān)系、時間和語義細(xì)節(jié)幻覺的子類別。

安全性。安全性能力確保MLLMs生成的輸出在道德上是健全的,避免有害、誤導(dǎo)或不適當(dāng)?shù)捻憫?yīng)。這對于在敏感環(huán)境中的實際部署和維護(hù)公眾信任至關(guān)重要。例如,MM-SafetyBench [177]測試MLLMs對基于查詢的相關(guān)圖像攻擊的彈性,評估它們?nèi)绾翁幚韺剐圆樵?。與此相輔相成的是,RTVLM [180]通過引入紅隊評估來擴(kuò)展安全性的范圍,在這些評估中,模型在對抗性、道德上具有挑戰(zhàn)性或有害的場景中進(jìn)行測試,重點關(guān)注關(guān)鍵領(lǐng)域,如真實性、隱私、安全性和公平性。此外,MLLMGUARD [179]擴(kuò)展到雙語安全評估,涵蓋五個維度的方面,確保全面性、嚴(yán)謹(jǐn)性和健壯性。與這些基準(zhǔn)測試不同,MOSSBench [178]評估MLLMs的過度敏感性,關(guān)注它們?nèi)绾尾划?dāng)?shù)鼐芙^良性查詢。

可信度??尚哦葴y試MLLMs生成的內(nèi)容的可信度,評估信息是否可靠、來源準(zhǔn)確,并以維護(hù)道德標(biāo)準(zhǔn)的方式呈現(xiàn)。這對于新聞生成、教育內(nèi)容和其他信息完整性至關(guān)重要的應(yīng)用領(lǐng)域尤為重要。具體來說,Shield [183]旨在評估MLLMs在多個模態(tài)中檢測面部偽造和偽造攻擊的有效性。相比之下,MTruthfulQA [182]旨在評估多語言場景中LLMs的真實性。更全面地,MultiTrust [181]首次統(tǒng)一評估MLLMs在五個關(guān)鍵維度上的可信度:真實性、安全性、健壯性、公平性和隱私性,重點關(guān)注多模態(tài)風(fēng)險和跨模態(tài)影響。

健壯性。MLLMs的健壯性指的是它們在面對分布偏移或輸入擾動時保持一致性能的能力[181]。為了探索這一點,BenchLMM [187]檢查跨風(fēng)格的視覺能力,即MLLMs如何處理三種不同的風(fēng)格:藝術(shù)、傳感器和基于應(yīng)用的變化,揭示了模型在面對非標(biāo)準(zhǔn)視覺上下文時的弱點。同樣,MMCBench [186]擴(kuò)展評估,測試在文本、圖像和語音中的常見腐敗下的自一致性,提供了對MLLMs跨模態(tài)健壯性的更全面視圖。在不同的背景下,MMR [185]針對誤導(dǎo)性提示的健壯性,揭示了MLLMs經(jīng)常在正確理解視覺內(nèi)容的情況下與引導(dǎo)性問題作斗爭。此外,JailBreakV-28K [184]專注于可轉(zhuǎn)移性,研究針對LLMs的越獄技術(shù)如何轉(zhuǎn)移到MLLMs,強(qiáng)調(diào)了文本和基于圖像的對抗性攻擊中的漏洞,并強(qiáng)調(diào)了在多模態(tài)設(shè)置中需要更強(qiáng)的防御。CorrelationQA [188]和MM-SPUBENCH [189]都關(guān)注于評估MLLMs對偶然偏見的易感性。雖然CorrelationQA揭示了誤導(dǎo)性的圖像-文本對如何誘導(dǎo)幻覺,但MM-SPUBENCH通過測試MLLMs對九個類別中偶然相關(guān)性的脆弱性,提供了更全面的評估。

4.2 多模態(tài)任務(wù)和指標(biāo)

本章介紹了與每種生成能力相關(guān)的設(shè)計任務(wù)和評估指標(biāo)。更多詳細(xì)信息顯示在表3中。

4.2.1 面向能力的任務(wù)和指標(biāo)

交錯圖像-文本生成。給定包含文本和圖像的提示,此任務(wù)旨在評估模型在模態(tài)間生成連貫、交錯內(nèi)容的能力。CoMM [66]引入了一個更具挑戰(zhàn)性的變化,基于給定問題的交錯圖像-文本生成,模型僅基于給定的問題生成交錯內(nèi)容,而不提供初始圖像信息,推動模型推理和預(yù)測結(jié)果。StorySalon [139]和StoryStream [140]都專注于故事領(lǐng)域,涉及任務(wù)如多模態(tài)故事延續(xù)和多模態(tài)故事生成。前者專注于用文本和圖像擴(kuò)展給定的敘述,而后者挑戰(zhàn)模型從頭開始創(chuàng)建整個敘述序列,無縫整合文本和視覺內(nèi)容。此任務(wù)的主要評估方向是生成的交錯圖像和文本的連貫性和一致性[66],[140]。例如,OpenLEAF [141]利用BingChat [238]評估交錯圖像-文本內(nèi)容中的實體和風(fēng)格一致性。通過采用思維鏈方法,BingChat逐步檢測和分析常見主題和視覺風(fēng)格因素,如色彩調(diào)色板和氛圍,以生成最終的定量分?jǐn)?shù)。

代碼生成。它涉及從各種格式的輸入創(chuàng)建編程代碼,如文本和圖像[143],甚至更復(fù)雜的網(wǎng)頁[142]。此任務(wù)旨在整合MLLMs的優(yōu)勢,它們可以理解和處理多樣化數(shù)據(jù)類型,促進(jìn)將復(fù)雜的、多方面的規(guī)范轉(zhuǎn)換為可執(zhí)行代碼。對于HTML代碼生成評估,Web2Code [142]從網(wǎng)頁圖像生成HTML代碼,通過將代碼轉(zhuǎn)換回圖像并與地面真實情況進(jìn)行比較,專注于視覺保真度,而不是傳統(tǒng)的代碼級指標(biāo)。Plot2Code [143]強(qiáng)調(diào)功能性和視覺準(zhǔn)確性,通過整合傳統(tǒng)的代碼執(zhí)行檢查與使用GPT-4v和詳細(xì)文本匹配指標(biāo)的高級視覺評估,提供超出標(biāo)準(zhǔn)代碼通過率的全面評估。

指令遵循。此任務(wù)要求MLLMs生成嚴(yán)格遵循給定指令或指令的輸出。正如DEMON [144]所示,查詢輸入通常結(jié)合了定義目標(biāo)和格式的任務(wù)指令,以及提供多模態(tài)上下文的特定任務(wù)實例。對于每個指令,VisIT-Bench [145]收集了指令條件字幕,這些字幕不僅提供圖像的一般描述,還強(qiáng)調(diào)與給定指令相關(guān)的特定信息。

幻覺。視覺幻覺(VH)[154]指的是在視覺問答期間模型生成關(guān)于圖像的錯誤細(xì)節(jié)的實例。這包括錯誤的前提、上下文不足和解釋視覺數(shù)據(jù)的挑戰(zhàn),如基準(zhǔn)測試HaloQuest [164]所捕獲的。此外,“我知道(IK)”幻覺[156]發(fā)生在模型提供錯誤答案時,適當(dāng)?shù)捻憫?yīng)應(yīng)該是“我不知道”,突出了MLLMs中不確定性識別的需要。CHAIR [232]通過測量模型響應(yīng)中幻覺對象的頻率來評估幻覺。在此基礎(chǔ)上,AMBER [158]通過結(jié)合幻覺問題的精確度和召回率以及整體準(zhǔn)確性,增強(qiáng)了評估,從而在生成和判別任務(wù)中提供了更平衡的評估。此外,MMECeption [153]提供了一種無需注釋的方法,通過多次迭代評估跨模態(tài)語義一致性,生成GC@T分?jǐn)?shù)來量化模型的幻覺傾向。與此同時,IDK指標(biāo)[156]關(guān)注模型識別和傳達(dá)不確定性的能力,如果包含預(yù)定義的IDK關(guān)鍵詞,則將響應(yīng)標(biāo)記為正確。Halr [162]旨在測量判別和生成任務(wù)中的幻覺頻率,確保在不同任務(wù)類型中保持一致的評估框架。此外,MediHall Score [174]引入了一個特定于醫(yī)療的評估指標(biāo),采用分層評分系統(tǒng),考慮幻覺的嚴(yán)重性和類型,實現(xiàn)對其潛在臨床影響的細(xì)致評估。為了提高可信度并解決MLLMs中的幻覺,BEfore-AFter幻覺數(shù)據(jù)集(BEAF)[165]引入了四個關(guān)鍵指標(biāo):真理解(TU)、無知(IG)、固執(zhí)己見(SB)和猶豫不決(ID)。TU評估模型是否正確回答了關(guān)于移除對象的問題,而IG在給出錯誤答案時測量無知。SB評估模型堅持初始答案的傾向,SBp和SBn表示一致的“是”或“否”響應(yīng)。最后,ID跟蹤與移除對象無關(guān)的問題的答案的不必要變化。

安全性。安全性任務(wù)確保MLLMs的響應(yīng)不會導(dǎo)致有害或非法的結(jié)果。對于毒性評估,它提供了輸入,如NSFW圖像(例如,暴力或露骨內(nèi)容)與字幕查詢配對,以評估模型傾向于生成有害響應(yīng)的趨勢[181]。對于越獄,它涉及測試模型對旨在繞過安全協(xié)議的提示的抵抗力(例如,帶有嵌入文本截圖的圖像詢問非法查詢),并衡量模型是否以不違反安全指南的方式適當(dāng)響應(yīng)[181]。具體來說,在RTVLM中,給定單個圖像和紅隊問題,MLLM被要求從安全回答、謹(jǐn)慎回答或拒絕回答中選擇。

可信度。真實性任務(wù)通過提供圖像與事實性或誤導(dǎo)性文本查詢配對的輸入來評估MLLMs,并評估它們響應(yīng)的準(zhǔn)確性[181]。具體來說,Shield [183]專注于面部反欺騙和面部偽造檢測任務(wù),要求MLLMs根據(jù)不同模態(tài)(例如,RGB、深度圖、紅外圖像)的挑戰(zhàn)性輸入,準(zhǔn)確識別真實與假面部。此外,它引入了多屬性思維鏈范式,通過分析多個屬性(例如,形狀、顏色、紋理)來增強(qiáng)推理,以實現(xiàn)更可靠和全面的決策。

健壯性。在MMR [185]中,MLLMs被給予圖像,并被要求回答正面問題以評估視覺理解,并回答誤導(dǎo)性問題以測試對欺騙性提示的健壯性,從多個選擇中選擇正確答案。至于偶然偏見,MM-SPUBENCH [189]中的任務(wù)通過呈現(xiàn)圖像和文本提示來評估MLLMs,其中兩個輸入都包含核心和偶然特征。根據(jù)模型的響應(yīng)如何專注于本質(zhì)的核心特征,同時忽略不相關(guān)、誤導(dǎo)性的偶然特征,評估其對跨模態(tài)偶然偏見的抵抗力。

4.2.2 面向模態(tài)的指標(biāo)設(shè)計

  • 僅文本。與第2.2節(jié)中提到的自由形式格式類似,它們通常應(yīng)用傳統(tǒng)的圖像字幕指標(biāo),例如ROUGE和METEOR,以及基于LLM的評估[66]。
  • 僅視覺。對于評估圖像生成質(zhì)量,像Fréchet Inception Distance(FID)[239],Inception Score(IS)[240]和CLIP分?jǐn)?shù)這樣的指標(biāo)衡量與地面真實參考的視覺保真度和多樣性。為了評估風(fēng)格一致性和重建準(zhǔn)確性,采用了像結(jié)構(gòu)相似性指數(shù)度量(SSIM)和峰值信噪比(PSNR)[66]這樣的指標(biāo)。
  • 跨模態(tài)。確保不同模態(tài)間內(nèi)容一致性和敘事連貫性至關(guān)重要,這在交錯圖像-文本生成中被強(qiáng)調(diào)。評估如OpenLEAF [141],CoMM [66]和StoryStream [140]利用MLLMs評估圖像和文本之間的連貫性或一致性,通過檢查風(fēng)格、實體、內(nèi)容趨勢等。

5 應(yīng)用

5.1 背景和分類

為了全面評估MLLMs的能力,基準(zhǔn)測試必須超越一般任務(wù),涵蓋各種應(yīng)用。本節(jié)根據(jù)它們的應(yīng)用導(dǎo)向重點對基準(zhǔn)測試進(jìn)行分類,提供MLLMs在不同領(lǐng)域和環(huán)境中的表現(xiàn)見解。

5.1.1 視覺智能體

  • 交互式?jīng)Q策制定智能體。這些智能體處理視覺和文本輸入,以在不同平臺上執(zhí)行實時任務(wù)。對于網(wǎng)絡(luò)平臺,像MIND2WEB [190],WebArena [192]和VisualWebArena [193]這樣的基準(zhǔn)測試評估智能體在基于網(wǎng)絡(luò)的任務(wù)上的表現(xiàn),重點關(guān)注導(dǎo)航和復(fù)雜內(nèi)容互動。對于專注于移動平臺,像Ferret-UI [195]和Mobile-Eval [196],SPR [197]評估智能體與移動UI互動并僅基于視覺感知執(zhí)行任務(wù)的能力。AITW [191]強(qiáng)調(diào)智能體在各種Android設(shè)備上理解和執(zhí)行指令的能力。為了測試跨不同平臺的適應(yīng)性,CRAB [194]強(qiáng)調(diào)跨環(huán)境的多功能性,確保在多樣化界面中的一致性能。
  • 具身決策制定智能體。這一類別的智能體專注于感官輸入整合與現(xiàn)實世界行動,模仿類似人類的決策制定。MineDoJo [198]和PCA-EVAL [201]挑戰(zhàn)智能體在模擬環(huán)境中感知、推理和協(xié)調(diào)行動的能力。OpenEQA [200]和EgoPlan-Bench [199]專注于現(xiàn)實世界場景,而后者特別針對從第一人稱視角的人類水平規(guī)劃能力,要求長期任務(wù)跟蹤和高級視覺推理。全面地,VisualAgentBench [202]評估MLLMs作為視覺基礎(chǔ)智能體,專注于它們在復(fù)雜、現(xiàn)實世界環(huán)境和圖形界面中的多任務(wù)能力。

5.1.2 特定領(lǐng)域應(yīng)用

  • 醫(yī)療應(yīng)用。醫(yī)療MLLMs旨在增強(qiáng)多個模態(tài)和專業(yè)中的診斷準(zhǔn)確性和臨床決策制定。Asclepius [203]評估Med-MLLMs的診斷熟練能力,以匹配或超過人類水平的診斷推理,確保健壯和臨床有效的評估。M3D-Bench [204]推進(jìn)了對MLLMs在3D醫(yī)學(xué)成像中的評估,突出了它們解釋和分析復(fù)雜空間數(shù)據(jù)的能力,這對于現(xiàn)代診斷至關(guān)重要。PubMedVision [205]和GMAIMMBench [206]增強(qiáng)了視覺和文本醫(yī)學(xué)知識的整合,推進(jìn)了MLLMs通過準(zhǔn)確解釋和跨模態(tài)推理支持臨床決策制定的能力。
  • 機(jī)器人應(yīng)用。機(jī)器人應(yīng)用要求MLLMs有效整合多模態(tài)感知、推理和規(guī)劃,以適應(yīng)動態(tài)環(huán)境。RoboVQA [208]通過處理視頻輸入增強(qiáng)機(jī)器人的視覺理解和決策制定能力,以執(zhí)行復(fù)雜的現(xiàn)實世界任務(wù),而MMRo [207]評估關(guān)鍵技能,如空間推理、任務(wù)規(guī)劃和安全意識,確保在安全關(guān)鍵場景中的有效任務(wù)執(zhí)行。
  • 設(shè)計應(yīng)用。設(shè)計應(yīng)用要求MLLMs綜合細(xì)粒度視覺元素與更廣泛的布局理解。DesignProbe [209]和PosterLLaVA [211]都評估MLLMs推理設(shè)計特征如顏色、字體和布局的能力,強(qiáng)調(diào)在生成內(nèi)容感知、結(jié)構(gòu)化設(shè)計中的適應(yīng)性。此外,DesignQA [210]作為第一個零樣本基準(zhǔn)測試,評估MLLMs在工程背景下綜合復(fù)雜多模態(tài)數(shù)據(jù)的熟練程度,專注于它們解釋視覺和文本信息的能力。
  • 社交應(yīng)用。它挑戰(zhàn)MLLMs解釋多模態(tài)輸入,整合社交、環(huán)境和行為線索。1) 社交媒體。在社交媒體背景下,MLLMs必須導(dǎo)航動態(tài)和多樣化的內(nèi)容,要求對情感、錯誤信息和復(fù)雜的社交互動有先進(jìn)的理解,如MM-SOC [212]所示。2) 交通。TransportationGames [213]評估MLLMs應(yīng)用交通知識的能力,強(qiáng)調(diào)多模態(tài)理解、邏輯推理和決策制定。3) 自動駕駛。自動駕駛系統(tǒng)依賴于MLLMs進(jìn)行空間推理和實時規(guī)劃,從多模態(tài)感官輸入,以NuScenes-QA [214]和DriveLM-DATA [215]為重點,專注于安全導(dǎo)航和類似人類的響應(yīng)。4) 遙感。LHRSBench [216]評估MLLMs在解釋地理空間數(shù)據(jù)方面的能力,要求強(qiáng)大的空間推理和圖像識別,以理解復(fù)雜的環(huán)境背景。

5.2 多模態(tài)任務(wù)設(shè)計

應(yīng)用基準(zhǔn)測試通常包括與理解、推理和生成相關(guān)的任務(wù),這些任務(wù)側(cè)重于不同的領(lǐng)域。因此,本節(jié)還涉及與多樣化應(yīng)用能力相關(guān)的任務(wù)和指標(biāo)。

交互式?jīng)Q策制定智能體。正式地,環(huán)境和智能體被建模為部分可觀察的馬爾可夫決策過程(POMDP):E = (S, A, ?, T)。其中智能體接收狀態(tài)st ∈ S的部分觀察ot ∈ ?,采取行動at ∈ A,并根據(jù)函數(shù)T : S × A → S轉(zhuǎn)換到新狀態(tài),旨在完成像網(wǎng)頁導(dǎo)航或信息檢索這樣的任務(wù)。在WebArena [192]的基礎(chǔ)上,VisualWebArena [193]強(qiáng)調(diào)視覺定位,要求智能體解釋視覺數(shù)據(jù),而不僅僅是依賴于文本或HTML線索。對于跨環(huán)境,CRAB [194]將任務(wù)定義為元組(M, I, R),其中M是一組環(huán)境,I是任務(wù)目標(biāo),R是獎勵函數(shù)。智能體的政策π((m, a) | (I, H, o1, ..., on))根據(jù)指令和觀察確定跨環(huán)境的行動,測試智能體的適應(yīng)性和在多個平臺上的性能。由于傳統(tǒng)的目標(biāo)基礎(chǔ)和軌跡基礎(chǔ)評估的限制,它們未能捕捉到增量進(jìn)展,CRAB [194]引入了圖形評估器,通過跟蹤關(guān)鍵中間狀態(tài),允許進(jìn)行更細(xì)粒度的評估。它引入了完成率(CR),執(zhí)行效率(EE)和成本效率(CE)等指標(biāo),分別評估任務(wù)進(jìn)展、行動效率和資源使用。

具身決策制定智能體。在提供了概述任務(wù)目標(biāo)的語言指令時,人類水平的規(guī)劃涉及根據(jù)視覺輸入確定下一個合適的行動[199]。這種視覺輸入由顯示過去幀的視頻序列組成,這些幀跟蹤任務(wù)進(jìn)展,最后一幀代表當(dāng)前的自我中心視圖。

機(jī)器人應(yīng)用。對于MMRo基準(zhǔn)測試[207]中的開放式問題,響應(yīng)使用GPT-4 API進(jìn)行評估。這種方法改編自LLM-as-Judge框架[225],進(jìn)行了小幅調(diào)整。GPT-4V被要求提供判斷,將模型的響應(yīng)分類為“A”(正確),“B”(錯誤)或“C”(不確定)。

自動駕駛。DriveLM-DATA [215]引入了圖形視覺問答(GVQA),其中推理任務(wù)被構(gòu)建為問題-答案對內(nèi)的有向圖,與傳統(tǒng)的自動駕駛視覺問答不同,GVQA利用問題-答案之間的邏輯依賴關(guān)系來增強(qiáng)回答過程。

6 數(shù)據(jù)集構(gòu)建

由于不同類型的構(gòu)建過程具有很強(qiáng)的共性,本節(jié)是一般介紹常見的數(shù)據(jù)集構(gòu)建過程,包括數(shù)據(jù)集收集和質(zhì)量控制。

6.1 數(shù)據(jù)集收集

數(shù)據(jù)集收集是訓(xùn)練和評估MLLMs的關(guān)鍵步驟。該過程通常涉及多種方法,以確保數(shù)據(jù)集多樣化和代表性。

  • 手工制作:這種方法涉及人工注釋或精心選擇的數(shù)據(jù)。有時,LLM生成的樣本可能引入偏差,人工努力可以確保高質(zhì)量和客觀性[35]–[37]。此外,為了減少從公共數(shù)據(jù)集的數(shù)據(jù)泄露風(fēng)險,通過新設(shè)計的問題或答案引入了人工注釋,這些可以反映真實世界的場景[32]。
  • 自動化規(guī)則:應(yīng)用自動化規(guī)則或算法以結(jié)構(gòu)化的方式生成圖像或問答對。例如,VideoHIAN [69]設(shè)計了一個合成框架,通過針插入自動生成特定的查詢-響應(yīng)對。
  • 基于LLM的生成:利用LLMs生成問題或圖像數(shù)據(jù),能夠有效創(chuàng)建大型數(shù)據(jù)集。例如,在問題生成中,LVLM-eHub [28]利用像GPT-4這樣的MLLMs,使用上下文學(xué)習(xí)策略創(chuàng)建正面和負(fù)面的視覺指令。同樣,對于圖像生成,SPEC [9]利用StableDiffusion-XL [241]生成具有單個對象的圖像,創(chuàng)建了一個專注的視覺數(shù)據(jù)集合。MileBench [56]利用DALLE-3 [242]生成隨機(jī)卡通風(fēng)格的圖像針。

6.2 質(zhì)量控制

質(zhì)量控制對于確保用于訓(xùn)練和評估MLLMs的數(shù)據(jù)集的可靠性和完整性至關(guān)重要。各種方法,從人工篩選到自動化過濾,幫助消除錯誤、冗余和不相關(guān)數(shù)據(jù)。

  • 人工篩選:人工審查員手動評估數(shù)據(jù)的準(zhǔn)確性、相關(guān)性和質(zhì)量[34]–[37]。它通常用作LLM基于數(shù)據(jù)生成后的雙重檢查[30],[68]或作為反饋給LLMs的數(shù)據(jù)生成提示[30]。
  • 基于規(guī)則的篩選:應(yīng)用自動化基于規(guī)則的過濾應(yīng)用結(jié)構(gòu)化算法來清理和優(yōu)化數(shù)據(jù)集。對于去重復(fù):II-Bench [24]采用圖像相似性算法和OCR過濾重復(fù)和以文本為主的圖像。DenseFusion-1M [45]遵循SemDeDup [243],使用來自EVA-CLIP的圖像特征進(jìn)行k均值聚類,根據(jù)設(shè)定的閾值移除每個聚類內(nèi)語義重復(fù)的圖像。對于過濾NSFW圖像,一些基準(zhǔn)測試[64],[66]使用基于4層多層感知器(MLP)的二元NSFW圖像分類器[244],該分類器在LAION-2B的NSFW數(shù)據(jù)集[245]上訓(xùn)練,準(zhǔn)確率達(dá)到97.4%。預(yù)測NSFW概率超過定義閾值的圖像被自動移除。
  • 基于LLM的篩選:LLMs可以作為檢查員,確保視覺依賴性,并最小化數(shù)據(jù)泄露,并要求先進(jìn)的多模態(tài)能力進(jìn)行解決[46]。例如,一些基準(zhǔn)測試直接將純文本問題輸入到多個MLLMs中。通過限制正確率,它們可以過濾與圖像無關(guān)的問題[35]–[37]。

7 未來研究方向

隨著我們進(jìn)入多模態(tài)學(xué)習(xí)的未知領(lǐng)域,雄心勃勃但充滿希望的AI研究前沿將推動范式轉(zhuǎn)變。我們設(shè)想未來的多模態(tài)基準(zhǔn)測試將包括多功能、以人為本、高效和無偏見的應(yīng)用。鑒于此,我們提出以下研究方向,這些方向需要創(chuàng)建更動態(tài)、交互式和復(fù)雜的MLLMs:

任何模態(tài)到任何模態(tài)。目前,當(dāng)前多模態(tài)基準(zhǔn)測試中不同任務(wù)的輸入和輸出模態(tài)是嚴(yán)格預(yù)定的。例如,大多數(shù)情況下,任務(wù)可能要求處理文本和圖像作為輸入,并以文本標(biāo)簽作為輸出。這種剛性安排與人類智能形成鮮明對比,在日常交流中,人類可以輕松適應(yīng)不同種類的輸入和輸出模態(tài)。一個復(fù)雜的MLLM應(yīng)該理想地容納任何模態(tài)的輸入和輸出;例如,它應(yīng)該處理文本、圖像和語音輸入,并生成文本、圖像、語音甚至動畫。這種靈活性將反映MLLMs在多樣化真實世界環(huán)境中更通用和實用的能力。為此,未來的基準(zhǔn)測試需要設(shè)計來支持和評估這種“任何到任何”模態(tài)轉(zhuǎn)換,作為下一代MLLMs的普遍挑戰(zhàn)和理想標(biāo)準(zhǔn)。

通用表示學(xué)習(xí)。當(dāng)前基準(zhǔn)測試通常針對特定任務(wù)量身定制,從而鼓勵模型為每種模態(tài)學(xué)習(xí)專門的表示。因此,跨所有模態(tài)的通用表示學(xué)習(xí),這可以說是深度學(xué)習(xí)的最終目標(biāo)之一,被擱置一邊。我們假設(shè)通過開發(fā)能夠?qū)W習(xí)和轉(zhuǎn)換跨所有模態(tài)的通用表示的MLLMs,將在基準(zhǔn)測試和模型效率方面帶來重大好處。這將本質(zhì)上要求模型無歧義且有效地理解和翻譯跨模態(tài)關(guān)系。追求這種粒度學(xué)習(xí)要求在多模態(tài)基準(zhǔn)測試設(shè)計中進(jìn)行范式轉(zhuǎn)變:促進(jìn)模型探索多種模態(tài)之間的潛在統(tǒng)一性,從而促進(jìn)它們學(xué)習(xí)一組普遍適用的特征的能力。

實時響應(yīng)。大多數(shù)現(xiàn)有基準(zhǔn)測試沒有考慮MLLMs響應(yīng)的時間方面,通常忽略了對實時或至少快速響應(yīng)的需求。然而,這種時間約束在各種真實世界應(yīng)用中至關(guān)重要,從語音助手到自動駕駛汽車,高延遲簡單地使系統(tǒng)不可接受。為了強(qiáng)調(diào)及時性因素,基準(zhǔn)測試應(yīng)整合嚴(yán)格的時間約束,并相應(yīng)地激發(fā)方法來加速推理過程。這反過來又會激勵研究,不僅在功能上健壯,而且在時間上高效的MLLMs,從而賦予這些模型以真實世界部署的可靠性。

人在環(huán)路(HITL)。當(dāng)前的基準(zhǔn)測試機(jī)制通常在隔離中評估AI模型,忽略了人類互動和合作這一不可或缺的部分。然而,為了實現(xiàn)最大效用,AI系統(tǒng)必須能夠與人類進(jìn)行動態(tài)互動,在循環(huán)過程中學(xué)習(xí),同時隨著時間的推移進(jìn)行適應(yīng)和改進(jìn)。這需要實施HITL基準(zhǔn)測試,在這些基準(zhǔn)測試中,可以準(zhǔn)確捕捉和評估人類行為的細(xì)微差別、實時協(xié)作決策和雙向通信挑戰(zhàn)。超越關(guān)鍵應(yīng)用領(lǐng)域如對話代理,人機(jī)協(xié)作可能會揭示一個新的基準(zhǔn)測試領(lǐng)域,而不是將AI視為一個孤立的實體,而是完全認(rèn)識到它作為真實世界應(yīng)用中的社會技術(shù)系統(tǒng)的一部分。

8 結(jié)論

本綜述系統(tǒng)回顧了211個多模態(tài)基準(zhǔn)測試,將它們分類為理解、推理、生成和應(yīng)用。盡管現(xiàn)有的基準(zhǔn)測試顯著推進(jìn)了MLLM發(fā)展,但任務(wù)飽和、目標(biāo)不一致和指標(biāo)不一致等挑戰(zhàn)仍然存在。解決這些問題被認(rèn)為是創(chuàng)建更準(zhǔn)確反映MLLMs能力和局限性的基準(zhǔn)測試所必需的。我們的綜述旨在通過提供基準(zhǔn)測試領(lǐng)域的清晰概述并建議未來方向,以實現(xiàn)更有效和全面的評估,為研究人員提供指導(dǎo)。

本文轉(zhuǎn)載自 ??旺知識??,作者: 旺知識

收藏 1
回復(fù)
舉報
回復(fù)
相關(guān)推薦