ICML 2025 Spotlight|南洋理工陶大程教授團(tuán)隊(duì)等提出基于RAG的高分辨率圖像感知框架,準(zhǔn)確率提高20%
該工作由南洋理工大學(xué)陶大程教授團(tuán)隊(duì)與武漢大學(xué)羅勇教授、杜博教授團(tuán)隊(duì)等合作完成。
近些年,多模態(tài)大語(yǔ)言模型(MLLMs)在視覺(jué)問(wèn)答、推理以及 OCR 等任務(wù)上取得了顯著的成功。然而,早期的 MLLMs 通常采用固定的分辨率(例如 LLaVA-v1.5 將輸入圖像縮放為),對(duì)于輸入圖像為高分辨率圖像(例如 8K 分辨率)會(huì)導(dǎo)致圖像變得模糊,損失大量有效的視覺(jué)信息。
為了解決上述問(wèn)題,目前的解決方案分為三類:
1. 基于裁剪的方法:對(duì)于高分辨率圖像裁剪成多個(gè)子圖,每個(gè)子圖分別通過(guò)視覺(jué)編碼器提取視覺(jué)特征后再進(jìn)行拼接。然而對(duì)于 8K 的圖像,假設(shè)采用 ViT-L/14 就需要接近 300K 的 visual token 長(zhǎng)度,這對(duì)于目前大語(yǔ)言模型(LLM)的長(zhǎng)上下文建模能力是一個(gè)巨大的挑戰(zhàn)。
2. 采用處理高分圖像的視覺(jué)編碼器:使用能處理更高分辨率圖像的視覺(jué)編碼器代替基于 CLIP 訓(xùn)練的 ViT。然而,對(duì)于 8K 分辨率的圖像,依舊會(huì)縮放到對(duì)應(yīng)視覺(jué)編碼器能接受的輸入分辨率 (例如 ConvNeXt-L 的分辨率為)。
3. 基于搜索的方法:這類方法不需要訓(xùn)練,通過(guò)將高分辨率圖像構(gòu)建成樹(shù)結(jié)構(gòu),在樹(shù)結(jié)構(gòu)上進(jìn)行搜索。然而,這類方法在搜索的開(kāi)始階段輸入的是高分辨率圖像,從而容易搜索錯(cuò)誤的路徑,導(dǎo)致推理時(shí)延增加甚至搜索到錯(cuò)誤的結(jié)果。
事實(shí)上,在自然語(yǔ)言處理領(lǐng)域,對(duì)于長(zhǎng)上下文建模,通過(guò)檢索增強(qiáng)生成技術(shù)(RAG),檢索關(guān)鍵的文本片段代替原始的長(zhǎng)上下文作為輸入,從而提高 LLM 回復(fù)的準(zhǔn)確度。那么在 MLLM 中,是否也可以基于 RAG 技術(shù)提高 MLLM 對(duì)高分辨率圖像的感知?
為了回答上述問(wèn)題,研究人員通過(guò)實(shí)驗(yàn),探索 RAG 應(yīng)用在 MLLM 對(duì)于高分辨率圖像感知的可行性?;趯?shí)驗(yàn)發(fā)現(xiàn),提出了 Retrieval-Augmented Perception (RAP), 一種無(wú)需訓(xùn)練的基于 RAG 技術(shù)的高分辨率圖像感知插件。該工作已被 ICML 2025 接收,并獲評(píng)為 Spotlight 論文(top 2.6%)。
- 論文鏈接:https://arxiv.org/abs/2503.01222
- 主頁(yè)鏈接:https://dreammr.github.io/RAP
- 代碼鏈接:https://github.com/DreamMr/RAP
思考
為了探究將 RAG 應(yīng)用于 MLLM 的高分辨率圖像感知,研究人員提出了三個(gè)問(wèn)題:
1. 檢索出來(lái)的圖像塊如何布局?
2. 檢索的圖像塊數(shù)量對(duì)最終性能的影響如何?
3. 如何基于上述發(fā)現(xiàn),將 RAG 更好的應(yīng)用于 MLLMs 對(duì)高分辨率圖像的感知?
檢索出來(lái)的圖像塊布局方式
為了探究檢索圖像塊布局的影響,研究人員設(shè)計(jì)了三種策略:1)按照檢索的分?jǐn)?shù)從高到低進(jìn)行排列;2)按照原始順序進(jìn)行排列和 3)維持檢索圖像塊的相對(duì)位置關(guān)系。具體的布局例子見(jiàn)下圖。
如下表所示,在三種布局方案中,對(duì)于單實(shí)例感知任務(wù)(FSP)都有顯著提升,然而 1)和 2)在跨實(shí)例感知任務(wù)(FCP)上相較于 baseline 有明顯性能下降。而 3)由于維持了圖像塊之間的相對(duì)位置關(guān)系,因此 3)在 FCP 任務(wù)上在三種策略中取得更好的效果。
結(jié)論 1: 維持檢索圖像塊之間的相對(duì)位置關(guān)系是有必要的,特別是對(duì)于需要空間感知的任務(wù)。
檢索的圖像塊數(shù)對(duì)最終性能的影響
為了探究檢索的圖像塊數(shù)的影響,研究人員使用 LLaVA-v1.5 和 LLaVA-v1.6 7B & 13B 在高分圖像感知評(píng)測(cè)數(shù)據(jù)集 HR-Bench 上進(jìn)行實(shí)驗(yàn)。
如下圖所示,當(dāng)檢索的數(shù)量 (K) 增加時(shí),由于提供了更多的視覺(jué)信息,在 FCP 任務(wù)上的性能逐漸增加。然而,當(dāng)K增加時(shí),輸入圖像的分辨率也相應(yīng)增加,導(dǎo)致模型輸出的結(jié)果準(zhǔn)確性下降。相反,對(duì)于 FSP 任務(wù)而言,較小的 K 便能取得更好的效果,但是在 FCP 任務(wù)上效果較差。
結(jié)論 2: 不同的任務(wù)類型需要保留的圖像塊數(shù)不同。對(duì)于 FSP 任務(wù)而言,僅需要較少的圖像塊數(shù)便能取得較好的效果,更多的圖像塊數(shù)反而影響模型的性能。對(duì)于 FCP 任務(wù)而言,更多的圖像塊數(shù)能夠保留足夠的視覺(jué)信息,但是依舊受到輸入圖像分辨率的限制。
方法
基于上述實(shí)驗(yàn)發(fā)現(xiàn),研究人員提出了一種無(wú)需訓(xùn)練的高分圖像檢索增強(qiáng)框架 —— Retrieval-Augmented Perception (RAP)。RAP 的設(shè)計(jì)原理是通過(guò)檢索和用戶問(wèn)題相關(guān)的圖像塊,代替原始的高分辨率圖像輸入到 MLLMs 中。該方法有效地降低輸入圖像的分辨率,并且保留和用戶問(wèn)題相關(guān)的關(guān)鍵視覺(jué)信息。為了維持檢索圖像塊之間的相對(duì)位置關(guān)系,研究人員設(shè)計(jì)了 Spatial-Awareness Layout 算法,通過(guò)確定關(guān)鍵的圖像塊的位置,剔除無(wú)效的行和列,在降低圖像分辨率的同時(shí),有效保持圖像塊之間的相對(duì)位置關(guān)系。此外,為了自適應(yīng)選擇合適的K,研究人員提出了 Retrieved-Exploration Search (RE-Search),通過(guò)檢索的相似度分?jǐn)?shù)和模型的置信度分?jǐn)?shù)作為啟發(fā)式函數(shù),引導(dǎo)模型搜索合適的K。方法架構(gòu)圖如下圖所示:
Spatial-Awareness Layout: 對(duì)于一張高分辨率圖像,首先對(duì)其進(jìn)行裁剪成多個(gè)圖像塊 (V)。接著通過(guò)檢索器 VisualRAG 計(jì)算每個(gè)圖像塊和用戶問(wèn)題 (q) 的相似度分?jǐn)?shù):
然后根據(jù)預(yù)先設(shè)定要保留的圖像塊數(shù)K,篩選出 top - K圖像塊,并構(gòu)建 0-1 矩陣M標(biāo)記要保留的圖像塊的位置為 1,其余位置標(biāo)記為 0。接著對(duì)矩陣M進(jìn)行掃描,提取其中非零行和列的索引,其余位置刪除,從而生成壓縮矩陣。最后根據(jù)壓縮矩陣
提取出相應(yīng)的圖像塊合成新的圖像
。
RE-Search: 為了自適應(yīng)選擇保留的圖像塊數(shù)K,研究人員受到算法的啟發(fā)提出了 RE-Search。研究人員將當(dāng)前的圖像按照不同的保留圖像塊數(shù)的比例,通過(guò) Spatial-Awareness Layout 算法對(duì)圖像進(jìn)行壓縮,生成子節(jié)點(diǎn)。與之前基于搜索的方法不同,為了避免在搜索的初始階段受到圖像分辨率的影響,RE-Search 引入了每個(gè)圖像塊和用戶問(wèn)題的相似度分?jǐn)?shù)
:
這里表示有效的圖像塊,n表示有效的圖像塊的數(shù)量,g(t)表示當(dāng)前的圖像與用戶問(wèn)題的語(yǔ)義相似度。在
算法中通過(guò)啟發(fā)式函數(shù)h估計(jì)從當(dāng)前狀態(tài)到目標(biāo)狀態(tài)的花費(fèi)。這里通過(guò)讓 MLLM 自身判斷當(dāng)前的圖像
是否有足夠的視覺(jué)信息回答用戶的問(wèn)題:
其中表示 MLLM,
是提示模板用于構(gòu)造文本問(wèn)題(例如:“Question: {q} Could you answer the question based on the available visual information?”)。這里計(jì)算模型對(duì)于回復(fù)為 “Yes” 的置信度分?jǐn)?shù)作為啟發(fā)式函數(shù)。
由于在最開(kāi)始圖像的分辨率較大,模型輸出的結(jié)果h(t)不可靠。因此在最開(kāi)始搜索過(guò)程中降低h(t)的權(quán)重,隨著搜索深度加深,逐漸增加h(t)的權(quán)重,具體計(jì)算公式如下:
其中b是一個(gè)超參數(shù),具體實(shí)現(xiàn)時(shí)設(shè)置為0.2,d是搜索的深度。
實(shí)驗(yàn)結(jié)果
本文在高分辨率圖像評(píng)測(cè)數(shù)據(jù)集 Bench 和 HR-Bench 上進(jìn)行評(píng)測(cè)。對(duì)比的方法包括基于裁剪的方法(LLaVA-v1.6, InternVL-1.5 等)以及使用處理高分辨率圖像的視覺(jué)編碼器的方法(LLaVA-HR-X),實(shí)驗(yàn)結(jié)果如下表所示,RAP 在單實(shí)例感知和多實(shí)例感知任務(wù)上都能帶來(lái)明顯的性能提升。特別是在 HR-Bench 4K 和 8K 上分別帶來(lái)最大 21% 和 21.7% 的準(zhǔn)確率提升。
論文中還對(duì)比了基于搜索的方法(結(jié)果見(jiàn)下表),RAP 相比于 和 Zoom Eye 在吞吐量和準(zhǔn)確率上都取得更好的效果。
此外,消融實(shí)驗(yàn)表明 (見(jiàn)下表),如果僅加入 VisRAG 檢索和用戶問(wèn)題相關(guān)的圖像塊,僅帶來(lái) 6.5% 的提升,通過(guò)維持檢索圖像塊之間的相對(duì)位置關(guān)系在 FCP 任務(wù)上能夠有所改進(jìn)。通過(guò)引入 RE-Search 自適應(yīng)選擇合適的K,最終能夠帶來(lái) 21.7% 的性能提升。
總結(jié)
綜上,該工作提出了 Retrieval-Augmented Perception (RAP),一種無(wú)需訓(xùn)練基于 RAG 技術(shù)提高 MLLM 對(duì)高分辨率圖像感知的方法。該方法使用 Spatial-Awareness Layout 算法維持檢索的圖像塊之間的相對(duì)位置信息,通過(guò) RE-Search 自適應(yīng)選擇合適的K值,在保留關(guān)鍵視覺(jué)信息的同時(shí)有效降低圖像的分辨率。實(shí)驗(yàn)結(jié)果表明,RAP 在 MLLM 高分辨率圖像感知的場(chǎng)景中展現(xiàn)出顯著優(yōu)勢(shì)。