通過注意力提示實(shí)現(xiàn)免訓(xùn)練的開放式目標(biāo)檢測與分割 原創(chuàng) 精華
摘要
現(xiàn)有的感知模型通過從大量標(biāo)記數(shù)據(jù)中學(xué)習(xí)取得了巨大成功,但在開放世界場景中仍存在困難。為緩解這一問題,研究人員引入開放集感知任務(wù),以檢測或分割訓(xùn)練集中未見過的對象。然而,這些模型在推理時(shí)需要預(yù)定義的對象類別作為輸入,而在現(xiàn)實(shí)場景中無法獲取這些類別。最近,研究人員提出了一個(gè)新的、更實(shí)際的問題,即開放式目標(biāo)檢測,它在沒有任何對象類別作為輸入的情況下發(fā)現(xiàn)未見對象。在本文中,我們提出 VL-SAM,這是一個(gè)免訓(xùn)練框架,它將通用對象識別模型(即視覺語言模型)與通用對象定位模型(即分割一切模型)相結(jié)合,以解決開放式目標(biāo)檢測和分割任務(wù)。無需額外訓(xùn)練,我們使用注意力圖作為提示連接這兩個(gè)通用模型。具體而言,我們設(shè)計(jì)了一個(gè)注意力圖生成模塊,通過頭部聚合和正則化的注意力流,在視覺語言模型的所有頭部和層中聚合和傳播注意力圖,從而生成高質(zhì)量的注意力圖。然后,我們使用提示生成模塊從注意力圖中迭代采樣正樣本點(diǎn)和負(fù)樣本點(diǎn),并將采樣點(diǎn)發(fā)送給分割一切模型(SAM)以分割相應(yīng)的對象。在長尾實(shí)例分割數(shù)據(jù)集(LVIS)上的實(shí)驗(yàn)結(jié)果表明,我們的方法在目標(biāo)檢測任務(wù)上優(yōu)于先前的開放式方法,并且可以提供額外的實(shí)例分割掩碼。此外,VL-SAM 在極端情況目標(biāo)檢測數(shù)據(jù)集(CODA)上取得了良好的性能,證明了 VL-SAM 在實(shí)際應(yīng)用中的有效性。而且,VL-SAM 表現(xiàn)出良好的模型泛化性,可以結(jié)合各種視覺語言模型和分割一切模型。
1、引言
深度學(xué)習(xí)在感知任務(wù)中取得了顯著成功,自動(dòng)駕駛就是一個(gè)典型的實(shí)際應(yīng)用?,F(xiàn)有的基于深度學(xué)習(xí)的感知模型依賴大量有標(biāo)記的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)識別和定位對象。然而,訓(xùn)練數(shù)據(jù)無法涵蓋現(xiàn)實(shí)場景中的所有對象類型。當(dāng)面對分布外的對象時(shí),現(xiàn)有的感知模型可能無法識別和定位對象,這可能導(dǎo)致嚴(yán)重的安全問題。
許多開放世界感知方法被提出來解決這個(gè)問題。開放世界感知試圖在動(dòng)態(tài)和不可預(yù)測的環(huán)境中給出精確結(jié)果,這些環(huán)境包含新的對象并涉及場景領(lǐng)域的轉(zhuǎn)移。當(dāng)前的開放世界感知方法大致可分為兩類:開放集和開放式。開放集方法通常使用預(yù)訓(xùn)練的 CLIP 模型計(jì)算圖像區(qū)域與類別名稱之間的相似性。因此,在推理過程中,它們需要預(yù)定義的對象類別作為 CLIP 文本編碼器的輸入。然而,在許多現(xiàn)實(shí)應(yīng)用場景中,我們沒有確切的預(yù)定義對象類別。例如,在自動(dòng)駕駛中,自動(dòng)駕駛汽車可能會(huì)遇到意外的對象,包括各種珍稀動(dòng)物。此外,有些對象不能用簡單的類別名稱來表示,比如穿著動(dòng)物服裝的人,看起來像動(dòng)物但實(shí)際上是人。一些方法使用通用障礙物檢測來處理未知對象。然而,許多東西沒有明顯的三維形狀,比如地面上的坑洼或顆粒。因此,開放集方法無法處理所有情況。相比之下,開放式方法更通用、更實(shí)用,因?yàn)樗鼈兛梢宰约侯A(yù)測對象類別和位置。
在另一項(xiàng)研究中,大型視覺語言模型(VLMs)顯示出強(qiáng)大的通用對象識別能力,例如,它可以識別自動(dòng)駕駛場景中極端情況下的罕見對象。然而,視覺語言模型的定位能力比特定的感知模型更不準(zhǔn)確,有時(shí)會(huì)遺漏對象或給出錯(cuò)誤的定位結(jié)果。另一方面,作為一個(gè)純粹的視覺模型,分割一切模型(SAM)對來自許多不同領(lǐng)域的圖像表現(xiàn)出良好的通用分割能力。然而,分割一切模型無法為分割出的對象提供類別,并且可能會(huì)產(chǎn)生許多不相關(guān)的分割結(jié)果。
在本文中,我們建議將現(xiàn)有的通用對象識別模型(即視覺語言模型)與通用對象定位模型(即分割一切模型)相結(jié)合,以解決開放式目標(biāo)檢測和分割任務(wù)。我們提出 VL-SAM,這是一個(gè)免訓(xùn)練框架,它使用注意力圖作為中間提示連接兩個(gè)通用模型,如圖 1 所示。具體來說,我們利用視覺語言模型在描述整個(gè)駕駛場景時(shí)生成的注意力圖來提示分割一切模型進(jìn)行分割。首先,給定視覺語言模型生成的標(biāo)記,我們使用該標(biāo)記作為查詢,從視覺語言模型的所有層和頭中獲取注意力圖。然后,在注意力圖生成模塊中,我們引入頭部聚合和注意力流機(jī)制,通過所有的頭和層聚合和傳播全局注意力圖。此外,為了緩解在使用注意力流傳播時(shí)因果掩碼導(dǎo)致的注意力崩潰問題,我們采用一個(gè)正則化項(xiàng)來約束注意力流傳播過程。之后,為了更好地引導(dǎo)分割一切模型使用注意力圖進(jìn)行分割,我們提出一個(gè)提示生成模塊,通過分組和采樣正樣本點(diǎn)和負(fù)樣本點(diǎn)作為分割一切模型的點(diǎn)提示。此外,為了減少遺漏對象的數(shù)量,我們進(jìn)一步使用分割一切模型的分割結(jié)果從注意力圖中迭代采樣正樣本點(diǎn)和負(fù)樣本點(diǎn),直到收斂。
圖 1:VL-SAM 示意圖。無需額外訓(xùn)練,我們使用注意力圖作為中間提示連接視覺語言模型和分割一切模型。
這項(xiàng)工作的主要貢獻(xiàn)總結(jié)如下:
?我們提出了 VL-SAM,這是一個(gè)免訓(xùn)練的開放式目標(biāo)檢測和分割框架,它使用注意力圖作為提示連接通用對象識別模型和通用對象定位模型。
?我們引入了頭部聚合和正則化的注意力流機(jī)制,通過因果掩碼在所有頭和層中聚合和傳播注意力圖。
?我們提出了一種帶有注意力圖正樣本點(diǎn)和負(fù)樣本點(diǎn)采樣策略的迭代優(yōu)化流程。
?VL-SAM 在長尾實(shí)例分割數(shù)據(jù)集 LVIS 上優(yōu)于開放式方法 GenerateU,并且與現(xiàn)有的開放集方法相比取得了有競爭力的結(jié)果。在自動(dòng)駕駛應(yīng)用中,VL-SAM 在 CODA 數(shù)據(jù)集上實(shí)現(xiàn)了良好的極端情況目標(biāo)檢測性能。
2、相關(guān)工作
2.1 視覺語言模型
大型語言模型(LLMs),包括 GPT-3、GLM 和 LLaMA,已經(jīng)展示出類似人類的對話和推理能力。然而,大型語言模型處理和理解視覺數(shù)據(jù)的能力有限,限制了其在更多現(xiàn)實(shí)場景中的應(yīng)用。為了克服這一問題,前沿的視覺語言模型(VLM)應(yīng)運(yùn)而生,為應(yīng)用開辟了新的前景。最近,BLIP-2 提出了 Q-Former,通過三種對齊預(yù)訓(xùn)練損失連接和融合圖像和文本嵌入。LLaMA-Adapter、LLaVA 和 MiniGPT 引入了適配器或投影層來對齊圖像和文本的嵌入空間。CogVLM 提出了視覺專家模塊,將圖像特征轉(zhuǎn)換為與不同 Transformer 頭中的文本特征對齊。SPHINX 利用多種混合技術(shù)處理多個(gè)視覺任務(wù)。此外,CogAgent 和 LLaVA-Phi 將視覺語言模型視為一個(gè)智能體或助手來完成各種任務(wù)。現(xiàn)有的視覺語言模型,特別是 GPT-4V,在理解和推理新的或罕見的情況方面表現(xiàn)出很強(qiáng)的泛化能力,例如,它可以處理自動(dòng)駕駛中的極端情況。然而,視覺語言模型的定位能力比特定的感知模型(如分割一切模型)弱。
在本文中,我們?yōu)橐曈X語言模型配備通用分割模型(即分割一切模型),以解決視覺語言模型在開放式目標(biāo)檢測和分割中的定位限制問題。我們通過使用注意力圖作為提示連接兩個(gè)模型,無需額外訓(xùn)練。
2.2 開放世界目標(biāo)檢測和分割
隨著 CLIP 模型的出現(xiàn),開放世界分類、目標(biāo)檢測和實(shí)例分割同時(shí)取得了很大進(jìn)展。開放世界方法試圖在推理過程中發(fā)現(xiàn)和識別訓(xùn)練集中未見過的對象。目前的開放世界方法大致可分為兩類:開放集和開放式。開放集方法在推理時(shí)需要重新定義對象類別(包括訓(xùn)練集中見過的和未見過的對象)作為輸入。相比之下,開放式方法可以同時(shí)定位見過和未見過的對象并生成它們的名稱,就像當(dāng)前的視覺語言模型所做的那樣。在現(xiàn)實(shí)應(yīng)用中,感知模型可能不知道確切的類別。例如,在自動(dòng)駕駛中,自動(dòng)駕駛汽車經(jīng)常在路上遇到未知對象,包括翻車和各種形狀的工程車輛。因此,開放式問題更通用、更實(shí)際。
?開放集方法:憑借 CLIP 強(qiáng)大的文本 - 圖像嵌入匹配能力,當(dāng)前的開放集目標(biāo)檢測方法主要使用提議網(wǎng)絡(luò)獲取前景對象的邊界框和嵌入,然后使用 CLIP 作為開放集分類模塊來預(yù)測它們的類別。最近,GLIP 提議使用短語定位來預(yù)訓(xùn)練開放世界目標(biāo)檢測器。GroundingDINO 提出跨模態(tài)融合,將文本信息引入圖像編碼器進(jìn)行對象定位。SWORD 設(shè)計(jì)了一種新穎的對比方法來學(xué)習(xí)實(shí)例分割中前景和背景之間的差異。YOLO-World 引入了一種 “提示 - 然后檢測” 范式用于實(shí)時(shí)開放世界目標(biāo)檢測。然而,上述方法需要預(yù)定義的對象類別作為文本編碼器的輸入。
?開放式方法:GenerateU 首先提出了開放式問題。同時(shí),DetCLIPv3 引入了類似的開放式概念。它們提出了一個(gè)帶有語言模型的生成框架,同時(shí)生成對象類別和邊界框。為了實(shí)現(xiàn)更好的泛化能力,它們構(gòu)建了一個(gè)包含邊界框和字幕對的大型數(shù)據(jù)集,并在構(gòu)建的數(shù)據(jù)集上對整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào)。
相比之下,我們提出了一個(gè)免訓(xùn)練的開放式框架 VL-SAM,它結(jié)合了通用識別和分割模型。VL-SAM 可以使用通用識別模型生成對象類別,然后使用通用分割模型定位對象。
圖 2:VL-SAM 框架概述。我們首先使用視覺語言模型描述輸入圖像并生成所有可能的對象名稱。然后,對于每個(gè)對象名稱,我們使用注意力圖生成模塊獲得相應(yīng)的注意力圖。最后,我們從注意力圖中采樣點(diǎn)提示并將它們發(fā)送到分割一切模型,以預(yù)測檢測和分割結(jié)果。
3、方法
如圖 2 所示,我們給出了所提出框架的概述。我們分別使用視覺語言模型和分割一切模型作為通用對象識別模型和對象定位模型。給定圖像輸入,我們首先使用視覺語言模型描述場景并列出圖像中所有可能的對象。然后,對于每個(gè)對象,我們使用帶有頭部聚合和注意力流的注意力生成模塊從視覺語言模型中獲得高質(zhì)量的注意力圖。最后,我們從注意力圖生成點(diǎn)提示,并迭代地將它們發(fā)送到分割一切模型以獲得位置預(yù)測。
3.1 預(yù)備知識
?分割一切模型:分割一切模型是一種基于提示的分割模型,具有出色的數(shù)據(jù)生成能力。它由三個(gè)組件組成:圖像編碼器、掩碼解碼器和提示編碼器。分割一切模型將圖像和一組提示(包括點(diǎn)、框和掩碼)作為輸入。為了使用提示分割對象,分割一切模型首先使用圖像編碼器提取圖像特征。同時(shí),這組提示被發(fā)送到提示編碼器轉(zhuǎn)換為提示令牌。然后,圖像特征、提示令牌和掩碼令牌在掩碼解碼器中通過雙向 Transformer 進(jìn)行交互。最后,掩碼令牌通過與 MaskDINO 類似的方式,與圖像特征相乘轉(zhuǎn)換為多尺度分割掩碼。
?基于自回歸的視覺語言模型:當(dāng)前基于自回歸的視覺語言模型在各種視覺語言任務(wù)中取得了驚人的性能。當(dāng)前視覺語言模型的主流框架包括四個(gè)部分,即圖像編碼器、文本標(biāo)記器、投影層和語言解碼器。給定圖像和文本作為輸入,視覺語言模型分別使用圖像編碼器和文本標(biāo)記器提取圖像令牌和文本令牌。然后,通過投影層將圖像令牌與文本令牌對齊。之后,將來自兩個(gè)模態(tài)的令牌連接起來并發(fā)送到語言解碼器以生成文本輸出。語言解碼器采用下一個(gè)令牌預(yù)測范式,即當(dāng)前生成令牌x_{t}的概率取決于所有先前的令牌(x_{1}, x_{2}, ..., x_{t-1})。
圖 3:頭部聚合。我們使用注意力頭權(quán)重聚合來自所有注意力頭的信息。
圖 4:注意力流。我們使用注意力流從第一層傳播注意力到最后一層
3.2 注意力圖生成
VL-SAM 的主要思想是使用對象的注意力圖作為分割一切模型進(jìn)行分割的提示。因此,如何為對象生成高質(zhì)量的注意力圖至關(guān)重要。為了實(shí)現(xiàn)這一點(diǎn),我們引入注意力流,在視覺語言模型的所有 Transformer 頭和層中聚合和傳播注意力圖。
具體來說,給定圖像輸入,我們讓視覺語言模型給出圖像中所有可能的對象。在此過程中,我們緩存來自視覺語言模型的所有查詢和鍵。然后,我們將查詢和鍵與因果掩碼相乘,并進(jìn)行 SoftMax 歸一化,以獲得相似度矩陣S \in N ×N ×H ×L,其中N是查詢和鍵的長度,H是 Transformer 頭的數(shù)量,L表示 Transformer 層的數(shù)量。S_{i, j}^{h, l}表示頭h、層l中查詢i和鍵j之間的相似度。之后,我們使用平均最大注意力頭權(quán)重聚合來自所有 Transformer 頭的信息,如圖 3 所示。具體而言,我們選擇矩陣S在維度j上的最大相似度權(quán)重,并在維度i上求平均,以獲得注意力頭權(quán)重W \in 1 ×1 ×H ×L:
W = Mean(Max(S, dim=1), dim=0)
圖 5:注意力崩潰示意圖。對于每一列,從左到右,我們展示了圖像輸入、注意力流(崩潰)、正則化注意力流,以及視覺語言模型生成的答案。
(問題:“列出路上的所有物體?!?/p>
答案:在路上,有車輛(一輛紅色卡車和一輛藍(lán)色公共汽車)、路標(biāo)、人行橫道、白色障礙物,還有一些從圖像中無法清晰識別的較小物體。
問題:“列出路上的所有物體?!?/p>
答案:在路上,有車輛(包括一輛白色 SUV 在前景)、交通信號燈、道路標(biāo)記、人行橫道,以及一個(gè)裝滿瀝青修補(bǔ)材料的坑洼。
問題:“列出路上的所有物體。”
答案:路上的物體包括一輛白色公共汽車、一輛黃色卡車、交通錐,以及一個(gè)穿著迷彩服的人。)
顯然,注意力頭權(quán)重表示每個(gè)頭在每一層中的重要性。然后,我們將注意力頭權(quán)重與相似度矩陣S逐元素相乘,并對所有頭求平均,如下所示:
S' = Mean(S \odot W, dim=2)
在聚合了來自所有頭的所有信息之后,我們使用注意力流進(jìn)一步聚合來自所有層的注意力,如圖 4 所示。具體來說,我們使用注意力展開方法計(jì)算從層l-1到層l的注意力,如下所示:
其中I是單位矩陣。在注意力展開之后,我們只需要最后一層的注意力圖。為了獲得生成令牌的圖像注意力圖,我們從\bar{S}^{L}中選擇相應(yīng)的行和列。
然而,由于視覺語言模型在自回歸生成中使用因果掩碼,簡單地采用注意力展開方法會(huì)導(dǎo)致注意力崩潰,如圖 5 所示。幸運(yùn)的是,我們發(fā)現(xiàn)了一個(gè)簡單的正則化項(xiàng),可以有效地緩解這個(gè)問題。具體來說,對于每一列,假設(shè)未掩碼的長度為L_{0},我們將該列中的每個(gè)值乘以1-(L_{0}-1) / L。有了這個(gè)正則化項(xiàng),左上角的注意力值將受到約束。
3.3 分割一切模型提示生成
在 3.2 節(jié)中生成的注意力圖存在一些不穩(wěn)定的誤報(bào)峰值。為了過濾這些誤報(bào)區(qū)域,我們首先使用閾值過濾弱激活區(qū)域,并找到最大連通區(qū)域作為正區(qū)域。其余區(qū)域作為負(fù)區(qū)域。之后,我們從正區(qū)域中采樣具有最大激活值的正樣本點(diǎn),從負(fù)區(qū)域中采樣具有最弱激活值的負(fù)樣本點(diǎn)。正樣本點(diǎn)和負(fù)樣本點(diǎn)作為分割一切模型的點(diǎn)提示對。
3.4 迭代優(yōu)化
分割一切模型解碼器的分割結(jié)果可能包含粗糙的邊緣和背景噪聲。我們采用兩種迭代策略進(jìn)一步優(yōu)化分割結(jié)果。在第一種迭代策略中,我們遵循 PerSAM 中的級聯(lián)后優(yōu)化方法,將使用正樣本點(diǎn)和負(fù)樣本點(diǎn)對生成的初始分割掩碼作為分割一切模型解碼器的額外提示輸入。在第二種迭代策略中,我們使用第一種迭代策略中的分割掩碼對注意力圖\bar{S}'進(jìn)行掩碼操作。然后,我們從掩碼后的注意力圖中使用 3.3 節(jié)中的提示生成方法迭代生成正樣本點(diǎn)和負(fù)樣本點(diǎn)對,并將它們發(fā)送到分割一切模型解碼器。最后,我們使用非極大值抑制(NMS)聚合結(jié)果。
3.5 多尺度集成
由于視覺語言模型中圖像編碼器的圖像輸入分辨率較低,視覺語言模型可能無法識別小物體。例如,它可能會(huì)生成這樣的答案:“在路上,有車輛(一輛紅色卡車和一輛藍(lán)色公共汽車)、路標(biāo)、人行橫道、白色障礙物,還有一些從圖像中無法清晰識別的較小物體”。為了緩解這個(gè)問題,我們仿照 SPHINX 的做法,將一幅大小為(H×W)的圖像從四個(gè)角分割成四個(gè)大小為(H/2×W/2)的子圖像 ,并將每個(gè)子圖像獨(dú)立輸入到 VL-SAM 中。最后,我們將 VL-SAM 對四個(gè)子圖像和原始整幅圖像的輸出結(jié)果進(jìn)行集成。
3.6 問題提示集成
視覺語言模型的輸出對輸入提示很敏感。為了更全面地描述輸入圖像,我們讓視覺語言模型用 “如果我們想讓你列出給定圖像中所有可能的物體,我們應(yīng)該問什么問題?請給出你認(rèn)為合適的 10 個(gè)問題” 這句話來生成 10 個(gè)用于場景描述的問題提示。然后,我們使用生成的問題提示讓 VL-SAM 分割物體,并對所有問題提示的輸出進(jìn)行集成。
4、實(shí)驗(yàn)
4.1 實(shí)現(xiàn)細(xì)節(jié)
我們選擇帶有 EVA2-CLIP-E 的 CogVLM-17B 和 Vicuna-7B-v1.5 作為視覺語言模型。CogVLM-17B 將大小為 490×490 的圖像劃分為 35×35 的圖像塊。我們將 CogVLM-17B 的溫度設(shè)置為 0.8,核采樣的 top-p 值設(shè)置為 0.1。對于生成的定位模型,我們使用配備 ViT-Huge 的分割一切模型。
我們以無需訓(xùn)練的零樣本方式在所有數(shù)據(jù)集上評估 VL-SAM。為了從視覺語言模型生成的句子中獲取物體類別,我們仿照 Tag2Text 的做法,從給定句子中解析標(biāo)簽。為了在具有預(yù)定義物體類別名稱的數(shù)據(jù)集上評估開放式性能,我們仿照 GenerateU 的做法,采用 CLIP 文本編碼器,并將生成的物體類別映射到數(shù)據(jù)集中的預(yù)定義類別進(jìn)行評估。具體來說,我們使用文本提示 “一個(gè) {物體類別}” 作為 CLIP 文本編碼器的輸入,計(jì)算生成的物體類別與預(yù)定義類別之間的相似度,以進(jìn)行映射。所有模型的推理都在一臺(tái)配備 80G A800 的機(jī)器上進(jìn)行。
4.2 主要結(jié)果
?LVIS 數(shù)據(jù)集:我們在 LVIS 數(shù)據(jù)集上評估 VL-SAM,該數(shù)據(jù)集的類別分布呈長尾狀,包含超過 1000 個(gè)物體類別的注釋。仿照之前的研究,我們主要在 LVIS 小型驗(yàn)證集上評估 VL-SAM,并報(bào)告稀有物體的固定平均精度(AP)。
如表 1 所示,我們列出了三類感知方法的性能,即封閉集、開放集和開放式。開放集和開放式的區(qū)別在于,開放集需要確切的物體類別先驗(yàn)知識作為輸入,而開放式可以在推理過程中以零樣本的方式生成這些類別。在實(shí)際場景中,我們通常不知道場景中預(yù)定義的物體類別。因此,開放式方法更通用、更實(shí)用??梢钥闯?,VL-SAM 在稀有物體平均精度(AP)上比 GenerateU 高出 3.4。值得注意的是,VL-SAM 是一個(gè)無需訓(xùn)練的框架,可以同時(shí)獲得邊界框和分割掩碼。相比之下,GenerateU 需要在視覺基因組(VG)和 GRIT 數(shù)據(jù)集上對圖像編碼器和語言模型進(jìn)行微調(diào),這需要大量的訓(xùn)練成本,并且只能預(yù)測邊界框。此外,VL-SAM 與開放集檢測方法和封閉集分割方法相比,分別在檢測和分割性能上具有競爭力。
?CODA 數(shù)據(jù)集:為了進(jìn)一步證明所提方法在實(shí)際應(yīng)用中的有效性,我們在表 2 中展示了 VL-SAM 在自動(dòng)駕駛極端情況目標(biāo)檢測數(shù)據(jù)集 CODA 上的結(jié)果。具體來說,我們可以看到,區(qū)域提議網(wǎng)絡(luò)(RPN)的平均召回率(mAR)僅為 10.6,這表明當(dāng)前依賴物體提議的開放集檢測器在處理極端情況時(shí)存在困難。對于更新的開放集檢測器,它們使用 CLIP 作為物體類別預(yù)測器,獲得了更高的平均召回率。對于開放式方法,LLaVA-Grounding 將視覺語言模型和定位模型集成到一個(gè)模型中,比開放集方法表現(xiàn)更好。然而,將視覺語言模型和定位模型集成到一個(gè)模型中需要對兩個(gè)模型進(jìn)行聯(lián)合訓(xùn)練,這會(huì)增加額外的訓(xùn)練成本。相比之下,VL-SAM 是一個(gè)無需訓(xùn)練的框架,平均召回率從 LLaVA-Grounding 的 18.4 大幅提升到 40.1。
此外,我們評估了當(dāng)前分割一切模型的性能上限。我們使用真實(shí)邊界框作為分割一切模型解碼器的框提示來分割物體??梢杂^察到,在這種設(shè)置下,分割一切模型的平均召回率達(dá)到 54.1,50 次召回率(AR_{50})達(dá)到 94.1,因?yàn)榉指钜磺心P驮诜指钊蝿?wù)上存在局限性,它有時(shí)會(huì)對物體進(jìn)行過度或欠分割,無法獲得完美的分割結(jié)果。盡管如此,VL-SAM 達(dá)到了這個(gè)性能上限的 74.1% 的平均召回率,證明了所提框架的有效性??傮w而言,VL-SAM 在 CODA 數(shù)據(jù)集上取得了良好的性能。
4.3 消融實(shí)驗(yàn)
?主要組件:如表 3 所示,我們在 CODA 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),分析 VL-SAM 每個(gè)組件的有效性。對于基線樸素注意力方法,我們使用最后一層的注意力圖并對所有注意力頭求平均。可以看到,即使使用多尺度和問題集成技術(shù),樸素注意力基線的結(jié)果也不理想。使用我們提出的注意力生成模塊,我們將基線的平均召回率提高了 7.9。通過提示生成添加點(diǎn)對使平均召回率提高了 2.2。此外,使用迭代優(yōu)化模塊優(yōu)化分割圖,將檢測性能從 12.3 的平均召回率提升到 14.1。此外,多尺度圖像輸入和問題提示集成分別使平均召回率提高了 13.2 和 12.8。盡管多尺度和問題提示集成顯著提高了性能,但如果沒有我們提出的組件,這兩種集成技術(shù)并不有效??傊?,結(jié)果顯示了 VL-SAM 中每個(gè)組件的有效性。
?注意力生成:為了從視覺語言模型中獲得高質(zhì)量的注意力圖,我們引入注意力頭權(quán)重來融合 Transformer 頭,并為注意力流添加正則化項(xiàng)。如表 4 所示,由于因果掩碼導(dǎo)致的注意力崩潰,簡單使用注意力流幾乎無法讓分割一切模型識別物體(見圖 5)。有了正則化項(xiàng),注意力流機(jī)制比樸素注意力方法表現(xiàn)更優(yōu),平均召回率提高了 6.3。此外,融合注意力頭權(quán)重使平均召回率提高了 1.6。
?模型泛化性:為了證明 VL-SAM 框架的模型泛化能力,我們采用另外兩種流行的視覺語言模型 MiniGPT-4 和 LLaVA 來替代 CogVLM,并使用 MobileSAM 替代分割一切模型。在表 5 中,我們展示了在 VL-SAM 框架中使用這些模型的結(jié)果。實(shí)驗(yàn)結(jié)果表明,用 MiniGPT-4 或 LLaVA 替代 CogVLM 可能會(huì)降低極端情況下的物體定位性能,因?yàn)?CogVLM 在多模態(tài)對話和推理能力上比 MiniGPT-4 和 LLaVA 更強(qiáng)。這表明我們的 VL-SAM 框架可以從更強(qiáng)大的視覺語言模型中受益。此外,用更輕量級但精度較低的 MobileSAM 替代分割一切模型也會(huì)導(dǎo)致性能下降。盡管如此,所有這些結(jié)果都優(yōu)于表 2 中的先前方法(18.4 的平均召回率)。這證明了我們的框架可以推廣到多種視覺語言模型和分割模型。
5、局限性
由于我們結(jié)合視覺語言模型和分割一切模型來解決開放式目標(biāo)檢測和分割任務(wù),VL-SAM 繼承了視覺語言模型和分割一切模型的缺陷。第一個(gè)缺陷是視覺語言模型中的幻覺問題。VL-SAM 也存在幻覺現(xiàn)象,會(huì)生成錯(cuò)誤的物體令牌和注意力圖。第二個(gè)缺陷是 VL-SAM 的推理速度較慢。然而,這些缺陷在未來是可以解決的。例如,有許多更高效的分割一切模型變體,包括 EfficientSAM 和 MobileSAM。我們的框架可以從這些新模型中受益,因?yàn)槲覀兛梢暂p松地用這些更高效、高精度的模型替代 VL-SAM 中的 CogVLM 和分割一切模型。
6、結(jié)論
在本文中,我們介紹了 VL-SAM,這是一個(gè)通過注意力圖級聯(lián)視覺語言模型和分割一切模型的框架,用于解決開放式目標(biāo)檢測和分割任務(wù)。無需額外訓(xùn)練,我們將視覺語言模型生成的注意力圖作為分割一切模型分割物體的提示。我們引入注意力流機(jī)制來聚合高質(zhì)量的注意力圖。此外,我們提出了一種帶有正樣本點(diǎn)和負(fù)樣本點(diǎn)對采樣策略的迭代優(yōu)化流程,以獲得更準(zhǔn)確的分割掩碼。在長尾通用實(shí)例分割數(shù)據(jù)集 LVIS 上的實(shí)驗(yàn)結(jié)果表明,VL-SAM 擊敗了開放式方法 GenerateU,并且與封閉集和開放集方法相比取得了有競爭力的性能。此外,VL-SAM 在極端情況目標(biāo)檢測數(shù)據(jù)集 CODA 上也取得了良好的結(jié)果。
本文轉(zhuǎn)載自公眾號AIRoobt ,作者:Zhiwei Lin等
原文鏈接:??https://mp.weixin.qq.com/s/tnO7DWGoZi_JQq3h04yVUw??
