自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

在12個視頻理解任務(wù)中,Mamba先打敗了Transformer

發(fā)布于 2024-4-30 13:00
瀏覽
0收藏

探索視頻理解的新境界,Mamba 模型引領(lǐng)計算機視覺研究新潮流!傳統(tǒng)架構(gòu)的局限已被打破,狀態(tài)空間模型 Mamba 以其在長序列處理上的獨特優(yōu)勢,為視頻理解領(lǐng)域帶來了革命性的變革。


來自南京大學、上海人工智能實驗室、復旦大學、浙江大學的研究團隊發(fā)布了一項開創(chuàng)性工作。他們?nèi)鎸徱暳?Mamba 在視頻建模中的多重角色,提出了針對 14 種模型 / 模塊的 Video Mamba Suite,在 12 項視頻理解任務(wù)中對其進行了深入評估。結(jié)果令人振奮:Mamba 在視頻專用和視頻 - 語言任務(wù)中均展現(xiàn)出強勁的潛力,實現(xiàn)了效率與性能的理想平衡。這不僅是技術(shù)上的飛躍,更是對未來視頻理解研究的有力推動。


在12個視頻理解任務(wù)中,Mamba先打敗了Transformer-AI.x社區(qū)




  • 論文標題:Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding
  • 論文鏈接:https://arxiv.org/abs/2403.09626
  • 代碼鏈接:https://github.com/OpenGVLab/video-mamba-suite?


在當今快速發(fā)展的計算機視覺領(lǐng)域,視頻理解技術(shù)已成為推動行業(yè)進步的關(guān)鍵驅(qū)動力之一。眾多研究者致力于探索和優(yōu)化各種深度學習架構(gòu),以期實現(xiàn)對視頻內(nèi)容的更深層次解析。從早期的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和三維卷積神經(jīng)網(wǎng)絡(luò)(3D CNN),到目前廣受矚目的 Transformer 模型,每一次技術(shù)的飛躍都極大地拓寬了我們對視頻數(shù)據(jù)的理解和應用。


特別是 Transformer 模型,以其卓越的性能在視頻理解的多個領(lǐng)域 —— 包括但不限于目標檢測、圖像分割、以及多模態(tài)問答等 —— 取得了顯著成就。然而,面對視頻數(shù)據(jù)固有的超長序列特性,Transformer 模型也暴露出了其固有的局限性:由于其計算復雜度呈平方增長,使得對超長視頻序列的直接建模變得異常困難。


在這樣的背景下,狀態(tài)空間模型架構(gòu) —— 以 Mamba 為代表 —— 應運而生,以其線性計算復雜度的優(yōu)勢,展現(xiàn)出處理長序列數(shù)據(jù)的強大潛力,為 Transformer 模型的替代提供了可能。盡管如此,目前對于狀態(tài)空間模型架構(gòu)在視頻理解領(lǐng)域的應用,還存在一些局限性:一是主要集中在視頻全局理解任務(wù),如分類和檢索;二是主要探索了直接進行時空建模的方式,而對于更多樣化的建模方法的探索尚顯不足。


為了克服這些局限,并全面評估 Mamba 模型在視頻理解領(lǐng)域的潛力,研究團隊精心打造了 video-mamba-suite(視頻 Mamba 套件)。該套件旨在補充現(xiàn)有研究的不足,通過一系列深入的實驗和分析,探索 Mamba 在視頻理解中的多樣化角色和潛在優(yōu)勢。


研究團隊將 Mamba 模型的應用劃分為四種不同的角色,并據(jù)此構(gòu)建了一個包含 14 個模型 / 模塊的視頻 Mamba 套件。經(jīng)過在 12 個視頻理解任務(wù)上的全面評估,實驗結(jié)果不僅揭示了 Mamba 在處理視頻和視頻 - 語言任務(wù)上的巨大潛力,還展現(xiàn)了其在效率和性能之間取得的卓越平衡。論文作者們期待著這項工作能夠為視頻理解領(lǐng)域的未來研究提供可參考的資源和深刻的見解。


在12個視頻理解任務(wù)中,Mamba先打敗了Transformer-AI.x社區(qū)



研究背景


視頻理解作為計算機視覺研究的基礎(chǔ)問題,其核心在于捕捉視頻中的時空動態(tài),用一識別并推斷活動的性質(zhì)及其演變過程。目前,針對視頻理解的架構(gòu)探索主要分為三個方向。


首先,基于幀的特征編碼方法通過循環(huán)網(wǎng)絡(luò)(如 GRU 和 LSTM)進行時間依賴性建模,但這種分割的時空建模方式難以捕獲聯(lián)合時空信息。其次,三維卷積核的使用在卷積神經(jīng)網(wǎng)絡(luò)中實現(xiàn)了對空間和時間相關(guān)性的同步考慮。


隨著語言和圖像領(lǐng)域的 Transformer 模型取得巨大成功,視頻 Transformer 模型也在視頻理解領(lǐng)域取得了顯著進展,展現(xiàn)出超越 RNNs 和 3D-CNNs 的能力。視頻 Transformer 通過將視頻封裝在一系列 token 中,并利用注意力機制實現(xiàn)全局上下文交互和數(shù)據(jù)依賴的動態(tài)計算,從而在統(tǒng)一的方式下處理視頻中的時間或時空信息。


然而,由于視頻 Transformer 在處理長視頻時的計算效率有限,出現(xiàn)了一些變體模型,它們在速度和性能之間取得了平衡。最近,狀態(tài)空間模型(SSMs)在自然語言處理(NLP)領(lǐng)域展現(xiàn)了其優(yōu)勢?,F(xiàn)代 SSMs 在長序列建模中表現(xiàn)出強大的表征能力,同時保持線性時間復雜度。這是因為它們的選擇機制消除了存儲完整上下文的需要。特別是 Mamba 模型,將時變參數(shù)納入 SSM,并提出了一種硬件感知算法,以實現(xiàn)高效的訓練和推理。Mamba 的出色擴展性能表明,它有望成為 Transformer 的一個有前景的替代方案。


同時,Mamba 的高性能和效率使其非常適合視頻理解任務(wù)。盡管已有一些初步嘗試探索 Mamba 在圖像 / 視頻建模中的應用,但其在視頻理解中的有效性尚不明確。針對 Mamba 在視頻理解中的潛力進行全面研究的缺失,限制了對其在多樣化視頻相關(guān)任務(wù)中能力的進一步探索。


針對以上問題,研究團隊對 Mamba 在視頻理解領(lǐng)域的潛力進行了探索。他們的研究目標是評估 Mamba 是否可以成為該領(lǐng)域的 Transformer 的一個可行替代方案。為此,他們首先要解決的問題是如何看待 Mamba 在理解視頻方面中的不同角色?;诖?,他們進一步研究了 Mamba 在哪些任務(wù)中表現(xiàn)得更出色。


論文將 Mamba 在視頻建模中的作用分為以下四類:1) 時序模型,2) 時序模塊,3) 多模態(tài)交互網(wǎng)絡(luò),4) 時空模型。針對每種角色,研究團隊都在不同的視頻理解任務(wù)上研究了其視頻建模能力。為了公平地讓 Manba 與 Transformer 一較高下,研究團隊根據(jù)標準或改進的 Transformer 架構(gòu)精心選擇了用于對比的模型。在此基礎(chǔ)上,他們得到了一個包含 14 個模型 / 模塊的 Video Mamba Suite,適用于 12 個視頻理解任務(wù)。研究團隊希望 Video Mamba Suite 能成為未來探索基于 SSM 的視頻理解模型的基礎(chǔ)型資源。


四種角色


Mamba 作為視頻時序模型


任務(wù)和數(shù)據(jù):研究團隊對 Mamba 在五個視頻時間任務(wù)上的性能進行了評估:時間動作定位(HACS Segment),時間動作分割(GTEA),密集視頻字幕(ActivityNet,YouCook),視頻段落字幕(ActivityNet,YouCook)和動作預測(Epic-Kitchen-100)。


在12個視頻理解任務(wù)中,Mamba先打敗了Transformer-AI.x社區(qū)



基準線和挑戰(zhàn)者:研究團隊選擇了基于 Transformer 的模型作為各項任務(wù)的基線。具體來說,這些基線模型包括 ActionFormer,ASFormer,Testra 和 PDVC。為了構(gòu)建 Mamba 的挑戰(zhàn)者,他們將基線模型中的 Transformer 模塊替換為基于 Mamba 的模塊,包括如上圖三種模塊,原始的 Mamba (a),ViM (b),以及研究團隊原創(chuàng)設(shè)計的 DBM (c) 模塊。值得注意的是,在涉及因果推斷的動作預測任務(wù)中,論文中將基線模型與原始的 Mamba 模塊進行了性能比較。


結(jié)果和分析:論文中展示了不同模型在四項任務(wù)上的比較結(jié)果??傮w而言,盡管一些基于 Transformer 的模型已經(jīng)加入了注意力變體來提升性能。下表展示了 Mamba 系列相比現(xiàn)有 Transformer 系列方法,展示出了更加卓越的性能。


在12個視頻理解任務(wù)中,Mamba先打敗了Transformer-AI.x社區(qū)

在12個視頻理解任務(wù)中,Mamba先打敗了Transformer-AI.x社區(qū)


在12個視頻理解任務(wù)中,Mamba先打敗了Transformer-AI.x社區(qū)


Mamba 用于多模態(tài)交互


研究團隊不僅關(guān)注了單模態(tài)任務(wù),還評估了 Mamba 在跨模態(tài)交互任務(wù)中的性能。論文中采用視頻時間定位(VTG)任務(wù)評估了 Mamba 的表現(xiàn)。所涉及的數(shù)據(jù)集包括 QvHighlight 和 Charade-STA。


任務(wù)和數(shù)據(jù):研究團隊對 Mamba 在五個視頻時間任務(wù)上的性能進行了評估:時間動作定位(HACS Segment),時間動作分割(GTEA),密集視頻字幕(ActivityNet,YouCook),視頻段落字幕(ActivityNet,YouCook)和動作預測(Epic-Kitchen-100)。


基準線和挑戰(zhàn)者:研究團隊使用 UniVTG 來構(gòu)建基于 Mamba 的 VTG 模型。UniVTG 采用 Transformer 作為多模態(tài)交互網(wǎng)絡(luò)。給定視頻特征和文本特征,他們首先為每個模態(tài)添加可學習的位置嵌入和模態(tài)類型嵌入,以保留位置和模態(tài)信息。然后,將文本和視頻標記連接起來,形成一個聯(lián)合輸入,進一步輸入到多模態(tài) Transformer 編碼器中。最后,提取文本增強的視頻特征,并將其送入預測頭。為了創(chuàng)建跨模態(tài)的 Mamba 競爭者,研究團隊選擇了堆疊雙向 Mamba 塊,形成一個多模態(tài)的 Mamda 編碼器,以替代 Transformer 基線。


結(jié)果和分析:該論文通過 QvHighlight 測試了多個模型的性能。Mamba 的平均 mAP 為 44.74,與 Transformer 相比有顯著提升。在 Charade-STA 上,基于 Mamba 的方法展示出了和 Transformer 類似的競爭力。這表明 Mamba 具有有效整合多種模態(tài)的潛力。


在12個視頻理解任務(wù)中,Mamba先打敗了Transformer-AI.x社區(qū)



考慮到 Mamba 是基于線性掃描的模型,而 Transformer 基于全局標記交互,研究團隊直觀地認為文本在標記序列中的位置可能會影響多模態(tài)聚合的效果。為了調(diào)查這一點,他們在表格中包括了不同的文本 - 視覺融合方法,并在圖中展示了四種不同的標記排列方式。結(jié)論是,當文本條件與視覺特征的左側(cè)融合時,可以獲得最佳結(jié)果。QvHighlight 對此融合的影響較小,而 Charade-STA 對文本的位置特別敏感,這可能歸因于數(shù)據(jù)集的特性。


在12個視頻理解任務(wù)中,Mamba先打敗了Transformer-AI.x社區(qū)


Mamba 作為視頻時序適配器


在評估 Mamba 在時序后建模方面的性能之外,研究團隊還考察了其作為視頻時間適配器的有效性。通過在以自我為中心的數(shù)據(jù)上執(zhí)行視頻文本對比學習來預訓練雙塔模型,該數(shù)據(jù)包含 400 萬個帶有細粒度敘述的視頻片段。


任務(wù)和數(shù)據(jù):研究團隊對 Mamba 在五個視頻時間任務(wù)上的性能進行了評估,其中包括:時序動作定位(HACS Segment),時序動作分割(GTEA),密集視頻字幕(ActivityNet,YouCook),視頻段落字幕(ActivityNet,YouCook)和動作預測(Epic-Kitchen-100)。


基準線和挑戰(zhàn)者:TimeSformer 采用了分開的時空注意力塊來分別建模視頻中的空間和時間關(guān)系。為此,研究團隊引入了雙向 Mamba 塊作為時序適配器,以取代原始的時序自注意力,改善分開的時空交互。為了公平比較,TimeSformer 中的空間注意力層保持不變。在這里,研究團隊使用了 ViM 塊作為時序模塊,并將結(jié)果模型稱為 TimeMamba。


值得注意的是,標準 ViM 塊比自注意力塊有更多的參數(shù)(略多于

在12個視頻理解任務(wù)中,Mamba先打敗了Transformer-AI.x社區(qū)

),其中 C 是特征維度。因此,論文中將 ViM 塊的擴展比率 E 設(shè)置為 1,將其參數(shù)量減少到

在12個視頻理解任務(wù)中,Mamba先打敗了Transformer-AI.x社區(qū)

,以進行公平比較。除了 TimeSformer 使用的普通殘差連接形式,研究團隊還探索了 Frozen 風格適配方式。以下是 5 種適配器結(jié)構(gòu):


在12個視頻理解任務(wù)中,Mamba先打敗了Transformer-AI.x社區(qū)


結(jié)果和分析


1.零樣本多實例檢索。研究團隊首先在表中評估了具有分開時空交互操作的不同模型,發(fā)現(xiàn)文中復現(xiàn)的 Frozen 風格殘差連接與 LaViLa 的一致。當比較原始和 Frozen 風格時,不難觀察到 Frozen 風格始終產(chǎn)生更好的結(jié)果。此外,在相同的適配方法下,基于 ViM 的時間模塊始終優(yōu)于基于注意力的時間模塊。


值得注意的是,論文中使用的 ViM 時間塊與時間自注意力塊相比參數(shù)更少,突出了 Mamba 選擇性掃描的較好的參數(shù)利用率和信息提取能力。


此外,研究團隊進一步驗證了時空 ViM 塊。時空 ViM 塊用整個視頻序列上的聯(lián)合時空建模取代了時序 ViM 塊。令人驚訝的是,盡管引入了全局建模,但時空 ViM 塊實際上導致了性能下降。為此,研究團隊推測基于掃描的時空可能會破壞預訓練空間注意力塊產(chǎn)生空間特征分布。以下是實驗結(jié)果:


在12個視頻理解任務(wù)中,Mamba先打敗了Transformer-AI.x社區(qū)


2.微調(diào)多實例檢索和動作識別。研究團隊繼續(xù)在 Epic-Kitchens-100 數(shù)據(jù)集上使用 16 幀微調(diào)預訓練模型進行多實例檢索和動作識別。可以從實驗結(jié)果中國呢觀察到 TimeMamba 在動詞識別的上下文中顯著優(yōu)于 TimeSformer,超出了 2.8 個百分點,這說明 TimeMamba 能夠在細粒度時序方面有效地建模。


在12個視頻理解任務(wù)中,Mamba先打敗了Transformer-AI.x社區(qū)

 

3.零樣本長視頻問答。研究團隊在 EgoSchema 數(shù)據(jù)集上進一步評估了模型的長視頻問答性能。以下是實驗結(jié)果:


在12個視頻理解任務(wù)中,Mamba先打敗了Transformer-AI.x社區(qū)

無論是 TimeSformer 還是 TimeMamba,在 Ego4D 上預訓練后,都超過了大規(guī)模預訓練模型(例如 InternVideo)的性能。此外,研究團隊從視頻開始以固定的 FPS 不斷增加了測試幀的數(shù)量,以探索 ViM 塊長視頻時間建模能力的影響。盡管兩個模型都是用 4 幀預訓練的,但隨著幀數(shù)的增加,TimeMamba 和 TimeSformer 的性能穩(wěn)步提高。同時,當使用 8192 幀時,可以觀察到顯著的改進。當輸入幀超過 32 時,TimeMamba 通常比 TimeSformer 從更多的幀數(shù)中受益,表明時間 ViM 塊在時序自注意力方面具有優(yōu)越性。


Mamba 用于時空建模


任務(wù)和數(shù)據(jù):此外,論文中還評估了 Mamba 在空間 - 時間建模方面的能力,具體在 Epic-Kitchens-100 數(shù)據(jù)集上評估了模型在零樣本多實例檢索方面的性能。


基線和競爭者:ViViT 和 TimeSformer 研究了將具有空間注意力的 ViT 轉(zhuǎn)化為具有空間 - 時間聯(lián)合注意力的模型?;诖?,研究團隊進一步擴展了 ViM 模型的空間選擇性掃描,以包含時空選擇性掃描。命名這個擴展后的模型為 ViViM。研究團隊使用在 ImageNet-1K 上預訓練的 ViM 模型進行初始化。ViM 模型包含了一個 cls token,該 token 被插入到拍平的 token 序列的中間。


下圖中展示了將 ViM 模型轉(zhuǎn)換為 ViViM的方法。對于給定的包含 M 幀的輸入,在每幀對應的 token 序列的中間插入 cls token。此外,研究團隊添加了時間位置嵌入,對每個幀初始化為零。然后將展平的視頻序列輸入到 ViViM 模型中。模型的輸出是通過計算每幀的 cls token 的平均值來得到的。


在12個視頻理解任務(wù)中,Mamba先打敗了Transformer-AI.x社區(qū)


結(jié)果和分析:論文中進一步研究了 ViViM 在零樣本多實例檢索方面的結(jié)果,實驗結(jié)果如下表所示:

在12個視頻理解任務(wù)中,Mamba先打敗了Transformer-AI.x社區(qū)

結(jié)果展示了不同時空模型在零樣本多實例檢索上的性能。當比較 ViT 和 ViViM 時,兩者都是在 ImageNet-1K 上預訓練的,可以觀察到 ViViM 的性能超過了 ViT。有趣的是,盡管在 ImageNet-1K 上 ViT-S 和 ViM-S 之間的性能差距很?。?9.8 vs 80.5),但 ViViM-S 在零樣本多實例檢索上顯示出顯著的改進(+2.1 mAP@Avg),這表明 ViViM 在建模長序列方面非常有效,從而提高了性能。


結(jié)論


這篇論文通過全面評估 Mamba 視頻理解領(lǐng)域的表現(xiàn),展示了 Mamba 可以作為傳統(tǒng) Transformers 的可行替代方案的潛力。通過包含 12 個視頻理解任務(wù)的 14 個模型 / 模塊組成的 Video Mamba Suite,研究團隊展示了 Mamba 高效處理復雜時空動態(tài)的能力。Mamba 不僅性能超群,還能夠更好地實現(xiàn)效率 - 性能之間的平衡。這些發(fā)現(xiàn)不僅強調(diào)了 Mamba 適用于視頻分析任務(wù),而且還為其在計算機視覺領(lǐng)域的應用開辟了新的途徑。未來的工作可以進一步探索 Mamba 的適應性,并將其效用擴展到更復雜的多模態(tài)視頻理解挑戰(zhàn)中。


本文轉(zhuǎn)自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/Y1gAtLoAlm7Zzt-Fl8rMYw??

收藏
回復
舉報
回復
相關(guān)推薦