當(dāng)視覺大模型陷入認(rèn)知失調(diào),馬里蘭大學(xué)構(gòu)建了一個(gè)幻覺自動(dòng)生成框架
本文的共同第一作者是馬里蘭大學(xué)電子計(jì)算機(jī)工程系的博士生吳曦旸(https://wuxiyang1996.github.io/)和計(jì)算機(jī)科學(xué)系的關(guān)天瑞(https://tianruiguan.phd/)。吳曦旸的研究方向主要涵蓋強(qiáng)化學(xué)習(xí)、自動(dòng)駕駛,以及大語言模型在機(jī)器人導(dǎo)航和計(jì)算機(jī)視覺中的應(yīng)用。關(guān)天瑞的研究則聚焦于計(jì)算機(jī)視覺和視覺語言模型在機(jī)器人、自動(dòng)駕駛等領(lǐng)域的應(yīng)用。本文的指導(dǎo)老師為李典奇,周天翼教授 (https://tianyizhou.github.io/)和 Dinesh Manocha 教授 (https://www.cs.umd.edu/people/dmanocha)。
想象一下,有一天你在沙漠中看到一個(gè)雪人,或者在雪地里發(fā)現(xiàn)一棵棕櫚樹。面對(duì)這些與周圍環(huán)境格格不入的景象,你是否會(huì)感到心理上的不適?
在認(rèn)知科學(xué)領(lǐng)域,研究者普遍認(rèn)為人腦傾向于利用以往的經(jīng)驗(yàn)來解讀觀察到的信息并構(gòu)建記憶。然而,當(dāng)人腦接收到與以往認(rèn)知不符的信息時(shí),可能會(huì)因?yàn)?“認(rèn)知失調(diào)”(Cognitive Dissonance)而對(duì)外部環(huán)境產(chǎn)生誤判,進(jìn)而在行為上表現(xiàn)出矛盾。例如,我們通常認(rèn)為電腦是由人類操控的,但如果我們看到一只章魚在操控電腦,這種不符合常理的場(chǎng)景會(huì)讓人腦產(chǎn)生認(rèn)知失調(diào)的不適感。
隨著對(duì)大模型的深入研究,研究人員發(fā)現(xiàn),在認(rèn)知和推理任務(wù)上,大模型的思維過程與人腦有一定相似之處。因此,針對(duì)人腦認(rèn)知失調(diào)特點(diǎn)設(shè)計(jì)的實(shí)驗(yàn)也能使大模型出現(xiàn)類似的 “幻覺” 現(xiàn)象。
基于這一觀察,馬里蘭大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)名為 AutoHallusion 的視覺大模型幻覺自動(dòng)生成框架。這一工作基于團(tuán)隊(duì)之前在 CVPR 2024 上發(fā)表的工作 HalluionBench(https://arxiv.org/pdf/2310.14566)。它通過在場(chǎng)景圖像中插入或刪除特定物體,并針對(duì)這些修改后的圖像提問,從而檢測(cè)大模型在回答時(shí)可能出現(xiàn)的幻覺現(xiàn)象。
這一方法能夠自動(dòng)生成大量的大模型幻覺案例,有效緩解當(dāng)前大模型幻覺研究中數(shù)據(jù)集缺乏的問題。在 GPT-4V、Gemini 和 Claude 等大模型上的實(shí)驗(yàn)表明,這些模型在本文提出的提出的基準(zhǔn)數(shù)據(jù)集上問答準(zhǔn)確率最高僅為 66.0%。該研究成果已發(fā)表于 EMNLP 2024。
- 論文標(biāo)題:AUTOHALLUSION: Automatic Generation of Hallucination Benchmarks for Vision-Language Models
- 論文鏈接:https://arxiv.org/pdf/2406.10900
- 項(xiàng)目主頁及代碼:https://wuxiyang1996.github.io/autohallusion_page/
文章概述
大型視覺語言模型(LVLMs)在內(nèi)容生成、自動(dòng)駕駛和機(jī)器人等領(lǐng)域中扮演著重要角色。然而,它們也會(huì)出現(xiàn) “幻覺” 現(xiàn)象,即生成的響應(yīng)中包含視覺內(nèi)容中不存在的信息。這些幻覺通常是由于語言模塊過度依賴語言先驗(yàn)信息而忽略視覺輸入所致。
為了解決這一問題,之前的工作通常收集幻覺案例建立基準(zhǔn)數(shù)據(jù)集,并以此對(duì)大模型進(jìn)行微調(diào),以減少可能存在的幻覺。然而,手動(dòng)創(chuàng)建幻覺案例和基準(zhǔn)既耗時(shí)又昂貴。此外,之前的工作對(duì)大模型產(chǎn)生幻覺的機(jī)制研究有限,在缺乏足夠代表性案例的情況下對(duì)大模型進(jìn)行微調(diào),可能會(huì)導(dǎo)致模型出現(xiàn)過擬合現(xiàn)象。
為此,本文提出了 AUTOHALLUSION 框架,可以自動(dòng)生成各種幻覺案例并進(jìn)行批量生產(chǎn)。該框架基于認(rèn)知科學(xué)原理,針對(duì)大模型產(chǎn)生幻覺的原因,提出了三種主要策略:插入異常物體、插入成對(duì)物體和移除相關(guān)物體,通過操控場(chǎng)景中的物體構(gòu)成來創(chuàng)建與語言先驗(yàn)相沖突的圖像。
為了生成能夠觸發(fā)大模型幻覺的(圖像 - 問題)組合,本文針對(duì)修改后的圖像,設(shè)計(jì)相應(yīng)的問題探測(cè)大模型的語言模塊,定位特定物體或其在相關(guān)情境中的語言先驗(yàn)信息。如果大模型的推理受到語言先驗(yàn)的偏見影響,例如在根據(jù)圖片回答某一特定物體的問題時(shí),大模型根據(jù)場(chǎng)景圖片的先驗(yàn)知識(shí)而非物體本身傳遞的信息來作答,那么就可能生成與事實(shí)不符或前后不一致的響應(yīng),從而導(dǎo)致幻覺現(xiàn)象。
AUTOHALLUSION 在包括 GPT-4V、Gemini、Claude 和 LLaVA 等最新的大模型上進(jìn)行了實(shí)驗(yàn),并整理發(fā)布了一個(gè)基準(zhǔn)數(shù)據(jù)集,來評(píng)估模型性能。在該基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,GPT-4V 等大模型的問答準(zhǔn)確率最高僅為 66.0%。
數(shù)據(jù)集地址:https://github.com/wuxiyang1996/AutoHallusion
研究方法
AUTOHALLUSION 的整體流程分為四個(gè)部分:
1. 場(chǎng)景生成:AUTOHALLUSION 使用合成或真實(shí)世界圖像作為場(chǎng)景圖。例如,在辦公室場(chǎng)景中,假設(shè)場(chǎng)景中有電腦、辦公桌、辦公椅等與辦公室主題一致的物體,而不會(huì)有炒鍋等與主題無關(guān)的物體。圖像可以通過 DALL-E 等圖像生成模型根據(jù)提示生成,也可以從 MSCOCO 等公開數(shù)據(jù)集中提取場(chǎng)景。
2. 圖像處理:AUTOHALLUSION 采用三種策略操控場(chǎng)景中的物體構(gòu)成,以創(chuàng)建與語言先驗(yàn)相沖突的圖像:
- 插入異常物體:將與場(chǎng)景主題不相關(guān)的異常物體添加到場(chǎng)景中,例如,在辦公室場(chǎng)景中添加通常不會(huì)出現(xiàn)的炒鍋。
- 插入成對(duì)物體:對(duì)通常一起出現(xiàn)的兩個(gè)物體進(jìn)行分離,保留一個(gè)并移除另一個(gè)。例如,牙刷和牙膏通常一起出現(xiàn),而在修改后的圖像中,只保留牙刷并移除牙膏。
- 移除相關(guān)物體:從原場(chǎng)景中移除一個(gè)相關(guān)物體,例如,在辦公室場(chǎng)景中抹除顯示器。
3. 構(gòu)造問題:AUTOHALLUSION 針對(duì)圖像處理過程中插入或刪除的物體進(jìn)行提問,并相應(yīng)地構(gòu)造事實(shí)信息。問題主要分為兩類:
- 存在性問題:詢問目標(biāo)物體是否存在于圖像中,問題提示信息的細(xì)節(jié)級(jí)別不一,從不提供額外信息到提供完整的圖像描述。
- 空間關(guān)系問題:詢問目標(biāo)物體與場(chǎng)景中其他物體的相對(duì)位置,并在問題提示中提供場(chǎng)景物體的名稱或描述。
4. 幻覺檢測(cè):AUTOHALLUSION 通過對(duì)比大模型的回答與事實(shí)信息或其他回答,來判斷其回答中是否存在幻覺。目前,AUTOHALLUSION 能夠檢測(cè)以下兩種類型的大模型幻覺:
- 正確性:大模型的回答與基本事實(shí)不一致。
- 一致性:大模型在面對(duì)包括不同級(jí)別的補(bǔ)充信息的問題時(shí),無法給出一致的答案,或者在針對(duì)某一特定物體的提問中,未能提供與圖像描述一致的答案。
實(shí)驗(yàn)結(jié)果
下表展示了通過 AutoHallusion 生成的大模型幻覺案例的成功率,結(jié)果顯示出以下幾個(gè)主要發(fā)現(xiàn):
- 插入物體的幻覺生成策略比刪除物體的策略更有效。
- 基于物體存在性構(gòu)建的問題比基于物體空間關(guān)系的問題更容易引發(fā)幻覺。
- GPT-4V 在防止大模型幻覺方面表現(xiàn)最好。
- 針對(duì)真實(shí)世界數(shù)據(jù)集構(gòu)建的幻覺案例成功率高于合成數(shù)據(jù)集。本文認(rèn)為,這可能是由于大模型難以處理真實(shí)世界圖像中物體語義關(guān)系的復(fù)雜性所致。
下圖展示了針對(duì)物體 - 場(chǎng)景對(duì)齊關(guān)系的消融實(shí)驗(yàn)結(jié)果。在該實(shí)驗(yàn)中,本文采用不同的大模型來生成用于圖像編輯的物體,并在視覺問答(VQA)任務(wù)中進(jìn)行評(píng)估。
基準(zhǔn)數(shù)據(jù)集指標(biāo)
本文從以下三個(gè)方面評(píng)估了通過 AutoHallusion 生成的基準(zhǔn)數(shù)據(jù)集:
- 多樣性:衡量數(shù)據(jù)集中不同場(chǎng)景和對(duì)象的數(shù)量,包括 200 個(gè)(合成)/160 個(gè)(真實(shí)世界)樣本。
- 圖像質(zhì)量:通過原始圖像和編輯圖像的 IS(Inception Score)分?jǐn)?shù),以及原始圖像與編輯圖像之間的 Frechet Inception Distance (FID) 距離來評(píng)估。
- 有效性:通過每個(gè)樣本中引發(fā)幻覺的平均問題數(shù)量來衡量。
下表展示了 GPT-4V、Gemini、Claude 和 LLaVA 等大模型在通過 AutoHallusion 生成的基準(zhǔn)數(shù)據(jù)集上的表現(xiàn)。