CVPR 2024 視頻場景解析挑戰(zhàn)賽第一名方案詳解
像素級場景理解是計算機視覺的基礎(chǔ)問題之一,旨在識別給定圖像中每個像素的對象類、mask和語義。與圖像場景解析相比,視頻場景解析引入了時間信息,可以有效提高預(yù)測的一致性和準確性,因為現(xiàn)實世界實際上是基于視頻的,而不是靜態(tài)的。
本文采用基于不可靠偽標簽的半監(jiān)督視頻語義分割方法。然后,將教師網(wǎng)絡(luò)模型與學生網(wǎng)絡(luò)模型集成,生成偽標簽并對學生網(wǎng)絡(luò)進行再訓(xùn)練。本方法在開發(fā)測試和最終測試中分別獲得了63.71%和67.83%的mIoU分數(shù)。在CVPR 2024的野外挑戰(zhàn)賽中獲得了視頻場景解析的第一名。
簡介
Video Scene Parsing in the Wild(VSPW)是一個視頻語義分割數(shù)據(jù)集,包含3536個視頻和124個類別的標注。由于各種語義分割數(shù)據(jù)集的可用性,圖像語義分割取得了重大進展。該挑戰(zhàn)旨在為VSPW中測試集視頻的每個視頻幀分配逐像素語義標簽。挑戰(zhàn)的突出評估指標是mIoU。隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展和大規(guī)模標注數(shù)據(jù)的可用性,視頻語義分割(VSS)的能力得到了顯著擴展。
VSS是視頻圖像分割的時空變化,旨在預(yù)測連續(xù)視頻幀中的像素標簽。與圖像語義分割相比,現(xiàn)有的大多數(shù)VSS方法都強調(diào)對局部信息的利用。[4-6]這幾種方法利用光流預(yù)測對幀之間的時間信息進行建模。然而,光流可能會導(dǎo)致不平衡的張力。ETC在每幀分段預(yù)測中使用了時間損失和新的速度一致性知識提取,作為光流的有效替代。MRCFA挖掘跨幀仿射關(guān)系,以實現(xiàn)更好的時間信息聚合。TMANet是第一個使用時間記憶注意力模塊來捕捉VSS中幀之間的時間關(guān)系的工作。
LLVSS設(shè)計了一種高效的幀工作,包括自適應(yīng)特征傳播和自適應(yīng)關(guān)鍵幀調(diào)度。DVIS通過將VSS框定為初始分割任務(wù),然后進行跟蹤,隨后使用綜合視頻數(shù)據(jù)細化分割結(jié)果,從而簡化了分割過程。CVPR 2023 PVUW VSS Track的第一位解決方案專注于增強具有對比損失的時空相關(guān)性,并利用具有標簽映射的多數(shù)據(jù)集訓(xùn)練來提高模型性能。
方法
本節(jié)描述了網(wǎng)絡(luò)的總體架構(gòu)。然后介紹了一種基于不可靠偽標簽的半監(jiān)督視頻語義分割方法。首先在有標簽數(shù)據(jù)上訓(xùn)練教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò),然后使用教師網(wǎng)絡(luò)生成偽標簽,將它們與原始數(shù)據(jù)集組合形成新的數(shù)據(jù)集,然后對學生網(wǎng)絡(luò)進行再訓(xùn)練。通過半監(jiān)督訓(xùn)練,提高了模型在未標注數(shù)據(jù)集上的性能。
概述
Transformer是一種基于保持機制的神經(jīng)網(wǎng)絡(luò)模型,在自然語言處理和其他序列數(shù)據(jù)處理任務(wù)中取得了顯著成功。近年來,隨著Transformer技術(shù)的發(fā)展,它在分割領(lǐng)域也取得了顯著進展。鑒于One peace算法在ADE2K數(shù)據(jù)集的語義分割領(lǐng)域取得了最先進的性能,選擇它作為教師網(wǎng)絡(luò)。同時選擇ViT Adapter算法作為學生網(wǎng)絡(luò)。
半監(jiān)督方法
隨著深度學習方法的發(fā)展,分割性能有了質(zhì)的提高。然而,高性能的深度學習模型需要大量的數(shù)據(jù)和標注,尤其是像素級的標簽,這需要巨大的人力和時間成本投資。因此,基于半監(jiān)督學習的方法受到研究者的青睞。半監(jiān)督學習的核心問題是有效地利用未標注樣本作為標注樣本的補充,從而提高模型的性能。傳統(tǒng)的半監(jiān)督方法通過篩選樣本來保持高置信度的預(yù)測結(jié)果,但這些結(jié)果導(dǎo)致大量未標注的數(shù)據(jù)得不到有效利用,導(dǎo)致模型訓(xùn)練不足。對于一些不可預(yù)測的類別,很難將正確的標簽分配給未標注的像素。因此,我們將不可靠的預(yù)測結(jié)果視為負樣本來參與模型訓(xùn)練,讓所有未標注的樣本在訓(xùn)練過程中發(fā)揮有效作用。
偽標簽策略
為了避免過擬合錯誤的偽標簽,使用每個像素的概率分布熵來過濾高質(zhì)量的偽標簽。具體而言,將表示為分割頭在像素j處為第i個未標注圖像生成的softmax概率,其中C是類的數(shù)量。
其中()是第c維上的的值。將像素j處的第i個未標注圖像的偽標簽定義為:
使用像素級熵來區(qū)分偽標簽中的可靠像素和不可靠像素。
方法的pipeline
如圖1所示,如何從未標注的數(shù)據(jù)中提取有效的信息是一個關(guān)鍵因素,因此使用半監(jiān)督學習方法。具體來說,在第一步中,使用標注的訓(xùn)練數(shù)據(jù)來訓(xùn)練教師網(wǎng)絡(luò)模型和學生網(wǎng)絡(luò)模型,然后使用多尺度和水平翻轉(zhuǎn)來增強測試和模型集成以生成偽標簽。
然后,將未標注和標注的數(shù)據(jù)集組合成一個新的數(shù)據(jù)集,并繼續(xù)微調(diào)學生網(wǎng)絡(luò)模型。對于偽標簽,使用像素級熵來過濾可靠像素和不可靠像素。對于作為負樣本的不可靠像素,使用比較損失訓(xùn)練來確保在訓(xùn)練過程中可以有效地使用整個偽標簽。
損失
對于每個標注的圖像,目標是最小化等式(4)中的標準交叉熵損失。對于每個未標注的圖像,首先使用教師模型進行預(yù)測。然后,使用像素級熵來忽略方程(5)中不可靠的像素級偽標簽和無監(jiān)督損失。使用對比損失來充分利用等式(6)中排除的不可靠像素。為了獲得更好的分割性能,最大限度地減少整體損失,可以將其形式化為:
實驗
本部分將描述方法的實現(xiàn)細節(jié),并在PVUW2024挑戰(zhàn)測試集上報告結(jié)果。
數(shù)據(jù)集
VSPW數(shù)據(jù)集標注了124類真實世界場景,其中包含3536個視頻,總共251633幀。在這些視頻中,訓(xùn)練集中有2806個視頻,驗證集中有343個視頻,測試集中有387個視頻。為了豐富我們的訓(xùn)練樣本,訓(xùn)練集和驗證集都用于訓(xùn)練。由于Transformer模型中的參數(shù)數(shù)量很大,增加訓(xùn)練樣本的數(shù)量有利于提高模型的性能。引入了額外的數(shù)據(jù)來訓(xùn)練我們的模型,例如ADE200和COCO數(shù)據(jù)集。在訓(xùn)練階段,我們的模型的主干在ImageNet22K數(shù)據(jù)集上進行預(yù)訓(xùn)練。COCO數(shù)據(jù)集用于在預(yù)訓(xùn)練階段訓(xùn)練整個模型。通過標簽重映射將COCO和ADE20k數(shù)據(jù)集標簽映射到VSPW數(shù)據(jù)集,并且將VSPW中不存在的類別標為255。
訓(xùn)練配置
消融研究
隨著transformer技術(shù)的快速發(fā)展,基于transformer的模型在密集目標檢測和分割領(lǐng)域表現(xiàn)出了強大的特征表達能力,甚至在一些復(fù)雜場景中保持了良好的魯棒性。因此,探索了基于transformer的模型在視頻語義分割任務(wù)中的應(yīng)用。不同骨干和方法的實驗結(jié)果如表1所示。
從表中可以看出,選擇One peace作為骨干的性能明顯優(yōu)于Swin-L、BEiT-L和ViT-Adapter-L。在隨后的實驗中,繼續(xù)探索網(wǎng)絡(luò)輸入分辨率、多尺度和翻轉(zhuǎn)增強測試、半監(jiān)督訓(xùn)練和模型集成對分割性能的影響。
半監(jiān)督訓(xùn)練
半監(jiān)督學習旨在從未標注的數(shù)據(jù)中提取有效的信息,從而提高模型的性能。受此啟發(fā),選擇了一個地方作為教師網(wǎng)絡(luò),ViT Adapter作為學生網(wǎng)絡(luò)。首先,在標注的數(shù)據(jù)集上訓(xùn)練教師和學生網(wǎng)絡(luò),并通過多尺度和翻轉(zhuǎn)增強的測試和模型驗證生成偽標簽。將未標注和標注的數(shù)據(jù)集組合到一個新的訓(xùn)練集中,以繼續(xù)微調(diào)學生網(wǎng)絡(luò)。
相信在半監(jiān)督模型訓(xùn)練中,偽標簽的每個像素都是重要的,即使它的預(yù)測是模糊的。直觀地說,不可靠的預(yù)測可能會在概率最高的類別中直接混淆,但對于不屬于其他類別的像素,它們應(yīng)該具有可信度。因此,這樣的像素可以被判斷為最不可能類別中的負樣本。從表3中可以看出,半監(jiān)督訓(xùn)練和模型集成將mIoU提高了約0.4個百分點。
推理增強
在推理階段,將繼續(xù)探索影響模型性能的因素。通過對每個標度使用多尺度和水平翻轉(zhuǎn)在mIOU度量上獲得更高的分數(shù),其中所選標度為[512./896.640./896.768/896.896.1024./896.1152./896.1280./896.1408./896.]。從表2和表3中可以看出,與單尺度結(jié)果相比,多尺度和水平翻轉(zhuǎn)結(jié)果使mIoU指標增加了0.4個百分點。
為了進一步提高模型的性能,將裁剪尺寸為896的教師模型和學生模型集成在一起,并在PVUW測試部分1的mIOU上獲得最高分數(shù)。通過結(jié)合多尺度和水平翻轉(zhuǎn)增強測試、半監(jiān)督訓(xùn)練學習和多模型集成技術(shù),在PVUW語義分割挑戰(zhàn)的最終測試集上取得了最先進的結(jié)果。最后,在最終測試集中獲得了第一名,如表4所示。我們方法在VSPW測試集上的定性結(jié)果如圖2所示。
結(jié)論
本文首先選擇了一個非常適合多類語義分割任務(wù)的強基線模型。采用了一種基于不可靠偽標簽的半監(jiān)督視頻信號分割方法。方法有效地利用未標注樣本作為標注樣本的補充,以提高模型性能。提出了一種集成方法,通過融合不同模型的結(jié)果來獲得更準確的概率。這些技術(shù)結(jié)合在一起,創(chuàng)造了一個全面的解決方案,在CVPR 2024大會上獲得了PVUW挑戰(zhàn)VSS賽道的第一名。結(jié)果證明了解決方案在解決多任務(wù)語義分割問題方面的有效性和通用性。
本文轉(zhuǎn)自 AI生成未來 ,作者:Biao Wu等
