自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)

發(fā)布于 2024-3-28 13:35
瀏覽
0收藏

在 2024 世界經(jīng)濟(jì)論壇的一次會談中,圖靈獎得主 Yann LeCun 提出用來處理視頻的模型應(yīng)該學(xué)會在抽象的表征空間中進(jìn)行預(yù)測,而不是具體的像素空間 [1]。借助文本信息的多模態(tài)視頻表征學(xué)習(xí)可抽取利于視頻理解或內(nèi)容生成的特征,正是促進(jìn)該過程的關(guān)鍵技術(shù)。


然而,當(dāng)下視頻與文本描述間廣泛存在的噪聲關(guān)聯(lián)現(xiàn)象嚴(yán)重阻礙了視頻表征學(xué)習(xí)。因此本文中,研究者基于最優(yōu)傳輸理論,提出魯棒的長視頻學(xué)習(xí)方案以應(yīng)對該挑戰(zhàn)。該論文被機(jī)器學(xué)習(xí)頂會 ICLR 2024 接收為了 Oral。


ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū)

論文題目:

Multi-granularity Correspondence Learning from Long-term Noisy Videos

論文地址:

??https://openreview.net/pdf?id=9Cu8MRmhq2??

項(xiàng)目地址:

???https://lin-yijie.github.io/projects/Norton??

代碼地址:

???https://github.com/XLearning-SCU/2024-ICLR-Norton??

01 背景與挑戰(zhàn)

視頻表征學(xué)習(xí)是多模態(tài)研究中最熱門的問題之一。大規(guī)模視頻 - 語言預(yù)訓(xùn)練已在多種視頻理解任務(wù)中取得顯著效果,例如視頻檢索、視覺問答、片段分割與定位等。目前大部分視頻 - 語言預(yù)訓(xùn)練工作主要面向短視頻的片段理解,忽略了長視頻中存在的長時(shí)關(guān)聯(lián)與依賴。


如下圖 1 所示,長視頻學(xué)習(xí)核心難點(diǎn)是如何去編碼視頻中的時(shí)序動態(tài),目前的方案主要集中于設(shè)計(jì)定制化的視頻網(wǎng)絡(luò)編碼器去捕捉長時(shí)依賴 [2],但通常面臨很大的資源開銷。


ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū)

▲ 圖1. 長視頻數(shù)據(jù)示例 [2]。該視頻中包含了復(fù)雜的故事情節(jié)和豐富的時(shí)序動態(tài)。每個(gè)句子只能描述一個(gè)簡短的片段,理解整個(gè)視頻需要具有長時(shí)關(guān)聯(lián)推理能力。


由于長視頻通常采用自動語言識別(ASR)得到相應(yīng)的文本字幕,整個(gè)視頻所對應(yīng)的文本段落(Paragraph)可根據(jù) ASR 文本時(shí)間戳切分為多個(gè)短的文本標(biāo)題(Caption),同時(shí)長視頻(Video)可相應(yīng)切分為多個(gè)視頻片段(Clip)。對視頻片段與標(biāo)題進(jìn)行后期融合或?qū)R的策略相比直接編碼整個(gè)視頻更為高效,是長時(shí)時(shí)序關(guān)聯(lián)學(xué)習(xí)的一種優(yōu)選方案。


然而,視頻片段與文本句子間廣泛存在噪聲關(guān)聯(lián)現(xiàn)象(Noisy correspondence [3-4],NC),即視頻內(nèi)容與文本語料錯(cuò)誤地對應(yīng) / 關(guān)聯(lián)在一起。如下圖 2 所示,視頻與文本間會存在多粒度的噪聲關(guān)聯(lián)問題。



ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū)

▲ 圖2. 多粒度噪聲關(guān)聯(lián)。該示例中視頻內(nèi)容根據(jù)文本標(biāo)題切分為 6 塊。(左圖)綠色時(shí)間線指示該文本可與視頻內(nèi)容對齊,紅色時(shí)間線則指示該文本無法與整個(gè)視頻中的內(nèi)容對齊。t5 中的綠色文本表示與視頻內(nèi)容 v5 有關(guān)聯(lián)的部分。(右圖)虛線表示原本給定的對齊關(guān)系,紅色指示原本對齊中錯(cuò)誤的對齊關(guān)系,綠色則指示真實(shí)的對齊關(guān)系。實(shí)線表示通過 Dynamic Time Wraping 算法進(jìn)行重新對齊的結(jié)果,其也未能很好地處理噪聲關(guān)聯(lián)挑戰(zhàn)。


粗粒度 NC(Clip-Caption 間):粗粒度 NC 包括異步(Asynchronous)和不相關(guān)(Irrelevant)兩類,區(qū)別在于該視頻片段或標(biāo)題能否與現(xiàn)有標(biāo)題或視頻片段相對應(yīng)。其中「異步」指視頻片段與標(biāo)題間存在時(shí)序上的錯(cuò)位,例如圖 2 中 t1。由于講述者在實(shí)際執(zhí)行動作的前后進(jìn)行解釋,導(dǎo)致陳述與行動的順序不匹配?!覆幌嚓P(guān)」則指無法與視頻片段對齊的無意義標(biāo)題(例如 t2 和 t6),或是無關(guān)的視頻片段。


根據(jù)牛津 Visual Geometry Group 的相關(guān)研究 [5],HowTo100M 數(shù)據(jù)集中只有約 30% 的視頻片段與標(biāo)題在視覺上是可對齊的,而僅有 15% 是原本就對齊的。


細(xì)粒度 NC(Frame-Word 間):針對一個(gè)視頻片段,可能一句文本描述中只有部分文字與其相關(guān)。在圖 2 中,標(biāo)題 t5 中「糖撒在上面」與視覺內(nèi)容 v5 強(qiáng)相關(guān),但動作「觀察釉面脫落」則與視覺內(nèi)容并不相關(guān)。無關(guān)的單詞或視頻幀可能會阻礙關(guān)鍵信息提取,從而影響片段與標(biāo)題間的對齊。

02 方法

本文提出噪聲魯棒的時(shí)序最優(yōu)傳輸(NOise Robust Temporal Optimal transport, Norton),通過視頻 - 段落級對比學(xué)習(xí)與片段 - 標(biāo)題級對比學(xué)習(xí),以后期融合的方式從多個(gè)粒度學(xué)習(xí)視頻表征,顯著節(jié)省了訓(xùn)練時(shí)間開銷。


ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū)

▲ 圖3. 視頻 - 段落對比算法框架圖


1)視頻 - 段落對比。如圖 3 所示,研究者以 fine-to-coarse 的策略進(jìn)行多粒度關(guān)聯(lián)學(xué)習(xí)。首先利用幀 - 詞間相關(guān)性得到片段 - 標(biāo)題間相關(guān)性,并進(jìn)一步聚集得到視頻 - 段落間相關(guān)性,最終通過視頻級對比學(xué)習(xí)捕捉長時(shí)序關(guān)聯(lián)。針對多粒度噪聲關(guān)聯(lián)挑戰(zhàn),具體應(yīng)對如下:


面向細(xì)粒度 NC。研究者采用 log-sum-exp 近似作為 Soft-maximum 算子去識別幀 - 詞和詞 - 幀對齊中的關(guān)鍵詞和關(guān)鍵幀,以細(xì)粒度的交互方式實(shí)現(xiàn)重要信息抽取,累計(jì)得到片段 - 標(biāo)題相似性。

面向粗粒度異步 NC。研究者采用最優(yōu)傳輸距離作為視頻片段和標(biāo)題之間的距離度量。給定視頻片段 - 文本標(biāo)題間相似性矩陣

ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū)

ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū)

表示片段與標(biāo)題個(gè)數(shù),最優(yōu)傳輸目標(biāo)為最大化整體對齊相似性,可天然處理時(shí)序異步或一對多(如 t3 與 v4,v5 對應(yīng))的復(fù)雜對齊情況。

,其中


ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū)


其中ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū)

為均勻分布給予每個(gè)片段、標(biāo)題同等權(quán)重,ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū)

為傳輸指派或重對齊矩,可通過 Sinkhorn 算法求解。


面向粗粒度不相關(guān) NC受特征匹配中 SuperGlue [6] 啟發(fā),我們設(shè)計(jì)了自適應(yīng)的可對齊提示桶去嘗試過濾不相關(guān)的片段與標(biāo)題。提示桶是一行一列的相同值向量,拼接于相似性矩陣ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū)上,其數(shù)值代表是否可對齊的相似度閾值。提示桶可無縫融入最優(yōu)傳輸 Sinkhorn 求解中。


ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū)

通過最優(yōu)傳輸來度量序列距離,而非直接對長視頻進(jìn)行建模,可顯著減少計(jì)算量。最終視頻 - 段落損失函數(shù)如下,其中ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū)表示第ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū)個(gè)長視頻與第

ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū)個(gè)文本段落間的相似性矩陣。


ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū)


2)片段 - 標(biāo)題對比。該損失確保視頻 - 段落對比中片段與標(biāo)題對齊的準(zhǔn)確性。由于自監(jiān)督對比學(xué)習(xí)會將語義相似的樣本錯(cuò)誤地作為負(fù)樣本優(yōu)化,我們利用最優(yōu)傳輸識別并矯正潛在的假陰性樣本:


ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū)


其中ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū)代表訓(xùn)練批次中的所有視頻片段和標(biāo)題個(gè)數(shù),單位矩陣ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū)

代表對比學(xué)習(xí)交叉熵?fù)p失中的標(biāo)準(zhǔn)對齊目標(biāo),ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū)

代表融入最優(yōu)傳輸矯正目標(biāo)ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū)后的重對齊目標(biāo),?ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū) 為權(quán)重系數(shù)。

03 實(shí)驗(yàn)


本文旨在克服噪聲關(guān)聯(lián)以提升模型對長視頻的理解能力。我們通過視頻檢索、問答、動作分割等具體任務(wù)進(jìn)行驗(yàn)證,部分實(shí)驗(yàn)結(jié)果如下。


1)長視頻檢索


該任務(wù)目標(biāo)為給定文本段落,檢索對應(yīng)的長視頻。在 YouCookII 數(shù)據(jù)集上,依據(jù)是否保留文本無關(guān)的視頻片段,研究者測試了背景保留與背景移除兩種場景。他們采用 Caption Average、DTW 與 OTAM 三種相似性度量準(zhǔn)則。


Caption Average 為文本段落中每個(gè)標(biāo)題匹配一個(gè)最優(yōu)視頻片段,最終召回匹配數(shù)最多的長視頻。DTW 和 OTAM 按時(shí)間順序累計(jì)視頻與文本段落間距離。結(jié)果如下表 1、2 所示。


ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū)

▲ 表1、2在YouCookII數(shù)據(jù)集上的長視頻檢索性能比較


2)噪聲關(guān)聯(lián)魯棒性分析


牛津 Visual Geometry Group 對 HowTo100M 中的視頻進(jìn)行了手工重標(biāo)注,對每個(gè)文本標(biāo)題重新標(biāo)注正確的時(shí)間戳。產(chǎn)出的 HTM-Align 數(shù)據(jù)集 [5] 包含 80 個(gè)視頻與 49K 條文本。在該數(shù)據(jù)集上進(jìn)行視頻檢索主要驗(yàn)證模型是否過度擬合了噪聲關(guān)聯(lián),結(jié)果如下表 9 所示。


ICLR 2024 | 單卡訓(xùn)練僅需1天!川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)-AI.x社區(qū)

▲ 表9. 在HTM-Align數(shù)據(jù)集上針對噪聲關(guān)聯(lián)的有效性分析

04 總結(jié)與展望

本文是噪聲關(guān)聯(lián)學(xué)習(xí) [3][4]—— 數(shù)據(jù)錯(cuò)配 / 錯(cuò)誤關(guān)聯(lián)的深入延續(xù),研究多模態(tài)視頻 - 文本預(yù)訓(xùn)練面臨的多粒度噪聲關(guān)聯(lián)問題,所提出的長視頻學(xué)習(xí)方法能夠以較低資源開銷擴(kuò)展到更廣泛的視頻數(shù)據(jù)中。


展望未來,研究者可進(jìn)一步探討多種模態(tài)間的關(guān)聯(lián)問題,例如視頻往往包含視覺、文本及音頻信號;可嘗試結(jié)合外部大語言模型(LLM)或多模態(tài)模型(BLIP-2)來清洗和重組織文本語料;以及探索將噪聲作為模型訓(xùn)練正激勵的可能性,而非僅僅抑制噪聲的負(fù)面影響。


本文轉(zhuǎn)自 PaperWeekly ,作者:林義杰


原文鏈接:??https://mp.weixin.qq.com/s/huxxifv6VbQOvoqfyX7vIw??

標(biāo)簽
已于2024-3-28 13:38:25修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦