性能SOTA,效率更高!清北&階躍星辰重磅發(fā)布GPDiT:擴(kuò)散與自回歸統(tǒng)一的視頻生成框架
文章鏈接:https://arxiv.org/pdf/2505.07344
亮點(diǎn)直擊
- GPDiT,一個(gè)強(qiáng)大的自回歸視頻生成框架,利用幀級(jí)因果注意力來提升長時(shí)間跨度的時(shí)序一致性。為了進(jìn)一步提高效率,提出了一種輕量級(jí)的因果注意力變體,顯著降低了訓(xùn)練和推理時(shí)的計(jì)算成本。
- 通過重新解釋擴(kuò)散模型的前向過程,引入了一種基于旋轉(zhuǎn)的條件策略,提供了一種無參數(shù)的時(shí)間信息注入方法。這種輕量級(jí)設(shè)計(jì)消除了與adaLN-Zero相關(guān)的參數(shù),同時(shí)實(shí)現(xiàn)了與最先進(jìn)的基于DiT的方法相當(dāng)?shù)哪P托阅堋?/li>
- 大量實(shí)驗(yàn)表明,GPDiT在視頻生成基準(zhǔn)測試中取得了具有競爭力的性能。此外,在視頻表征任務(wù)和少樣本學(xué)習(xí)任務(wù)上的評(píng)估展示了其在視頻理解能力方面的潛力。
視頻生成和Few-Shot學(xué)習(xí)
總結(jié)速覽
解決的問題
- 長視頻生成的時(shí)序一致性不足:傳統(tǒng)擴(kuò)散模型因雙向注意力機(jī)制(bidirectional attention)導(dǎo)致未來幀影響當(dāng)前幀預(yù)測,破壞因果性,難以保證長序列視頻的運(yùn)動(dòng)連貫性。
- 訓(xùn)練和推理效率低:現(xiàn)有方法(如擴(kuò)散強(qiáng)制,diffusion forcing)存在訓(xùn)練不穩(wěn)定、獨(dú)立噪聲調(diào)度等問題,影響生成質(zhì)量與計(jì)算效率。
- 離散token建模的局限性:傳統(tǒng)自回歸模型依賴離散 token 預(yù)測,難以自然建模連續(xù)視頻幀的動(dòng)態(tài)語義。
提出的方案
- 連續(xù)隱空間的自回歸擴(kuò)散框架:
- 將擴(kuò)散損失(diffusion loss)與自回歸建模結(jié)合,逐幀預(yù)測未來隱空間幀,增強(qiáng)運(yùn)動(dòng)動(dòng)態(tài)和語義一致性。
- 保留幀內(nèi)全注意力(intra-frame full attention),兼顧序列連貫性與幀內(nèi)表達(dá)能力。
- 高效架構(gòu)改進(jìn):
- 輕量級(jí)因果注意力機(jī)制:利用視頻時(shí)序冗余性,在訓(xùn)練時(shí)剔除干凈幀間的注意力計(jì)算,降低計(jì)算成本。
- 無參數(shù)時(shí)間條件機(jī)制:將噪聲注入過程建模為復(fù)數(shù)平面(complex plane)的旋轉(zhuǎn),替代傳統(tǒng)參數(shù)化方法(如 adaLN-Zero),提升效率。
應(yīng)用的技術(shù)
- 自回歸擴(kuò)散建模:融合擴(kuò)散模型的隱式時(shí)序理解能力與自回歸的因果性,實(shí)現(xiàn)連續(xù)隱空間的視頻生成。
- 因果注意力(Causal Attention):限制噪聲幀僅關(guān)注前驅(qū)干凈幀,避免未來信息泄露,支持長序列外推和 KV 緩存加速推理。
- 復(fù)數(shù)平面旋轉(zhuǎn)編碼:通過數(shù)據(jù)與噪聲分量的復(fù)數(shù)旋轉(zhuǎn)表示時(shí)間步,無需額外參數(shù)即可編碼時(shí)間信息。
達(dá)到的效果
- 生成質(zhì)量提升:在長視頻合成中表現(xiàn)優(yōu)異,運(yùn)動(dòng)動(dòng)態(tài)和語義一致性顯著優(yōu)于傳統(tǒng)擴(kuò)散或純自回歸方法。
- 表征能力增強(qiáng):框架兼具生成與表征學(xué)習(xí)能力,在少樣本學(xué)習(xí)(few-shot learning)任務(wù)中表現(xiàn)突出。
- 效率優(yōu)化:
- 輕量因果注意力減少計(jì)算開銷;
- 無參數(shù)時(shí)間條件機(jī)制簡化模型設(shè)計(jì),提升訓(xùn)練/推理速度。
生成式預(yù)訓(xùn)練自回歸擴(kuò)散Transformer(GPDiT)
本節(jié)提出一個(gè)結(jié)合自回歸和擴(kuò)散模型的有效視頻建模框架。首先介紹兩種專為幀感知自回歸擴(kuò)散設(shè)計(jì)的注意力機(jī)制變體。然后討論一種靈活的條件策略,用于處理干凈幀和噪聲幀。下圖2展示了GPDiT框架的總體結(jié)構(gòu),包括推理流程、GPDiT塊的內(nèi)部架構(gòu)以及擴(kuò)散過程的基于旋轉(zhuǎn)的解釋。
注意力機(jī)制
標(biāo)準(zhǔn)因果注意力
訓(xùn)練目標(biāo)是
標(biāo)準(zhǔn)因果注意力的一個(gè)顯著優(yōu)勢是其與鍵值(KV)緩存的兼容性,在推理過程中能顯著加速生成并縮短長視頻制作所需時(shí)間。
輕量級(jí)因果注意力
盡管標(biāo)準(zhǔn)因果注意力的優(yōu)勢明顯,但它存在兩個(gè)主要挑戰(zhàn)。首先在訓(xùn)練過程中,為注意力圖計(jì)算維護(hù)噪聲序列的干凈副本會(huì)使內(nèi)存和計(jì)算成本翻倍。其次在推理過程中,長序列預(yù)測時(shí)token累積導(dǎo)致的KV緩存膨脹會(huì)帶來極高的內(nèi)存負(fù)擔(dān)。
重新思考時(shí)間步條件注入
自適應(yīng)歸一化層零(adaLN-Zero)已被廣泛用于將時(shí)間步和類別標(biāo)簽嵌入整合到擴(kuò)散模型主干中,如DiT所述。adaLN-Zero通常設(shè)計(jì)為MLP模塊,用于為每個(gè)Transformer塊提取類別標(biāo)簽嵌入。然而,現(xiàn)代文本到圖像、文本到視頻和圖像到視頻生成任務(wù)涉及更復(fù)雜的語義嵌入。這些嵌入通常通過沿序列維度的token拼接或交叉注意力等技術(shù)注入模型,使得MLP模塊主要處理時(shí)間步嵌入。[6]的作者認(rèn)為adaLN-Zero子模塊顯著增加了模型參數(shù)量,約占總增加的28%。這種可觀的開銷促使研究者尋求更高效的時(shí)間條件注入方法,旨在降低計(jì)算成本的同時(shí)保持或提升性能。
首先考慮(方差保持的)前向擴(kuò)散過程,其表達(dá)式為:
使得前向過程可以表示為:
實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
在三種場景下進(jìn)行實(shí)驗(yàn):視頻生成、視頻表征和少樣本學(xué)習(xí)。結(jié)果表明GPDiT展現(xiàn)出卓越的生成與表征能力,這對(duì)構(gòu)建視覺理解與生成的統(tǒng)一模型至關(guān)重要,同時(shí)能以極小成本遷移至下游任務(wù)且無需額外模塊。
數(shù)據(jù)集
- 視頻生成任務(wù):
- UCF-101包含101個(gè)動(dòng)作類別的13,320段視頻,廣泛用于人體動(dòng)作識(shí)別
- MSR-VTT為開放域視頻描述設(shè)計(jì)的大規(guī)模數(shù)據(jù)集,包含20個(gè)類別的10,000個(gè)視頻片段,每個(gè)片段由Amazon Mechanical Turk工作者標(biāo)注20條英文描述
- 視頻表征評(píng)估:基于UCF-101數(shù)據(jù)集
- 少樣本學(xué)習(xí)任務(wù):構(gòu)建多個(gè)監(jiān)督微調(diào)(SFT)數(shù)據(jù)集,每個(gè)任務(wù)包含20個(gè)視頻序列(從40個(gè)任務(wù)特定圖像對(duì)中采樣三組生成),涵蓋人體檢測、圖像上色、Canny邊緣到圖像重建及兩種風(fēng)格遷移應(yīng)用
評(píng)估指標(biāo)
- 視頻生成:
- 從UCF-101隨機(jī)采樣10,000視頻,MSR-VTT采樣7,000視頻
- 計(jì)算所有視頻的FVD,以及所有幀的平均FID和Inception Score
- 視頻表征任務(wù):報(bào)告線性探測的top-1準(zhǔn)確率
- 少樣本學(xué)習(xí)任務(wù):展示各任務(wù)的視頻結(jié)果并進(jìn)行定性分析
視頻生成
為評(píng)估GPDiT框架的泛化能力,在MSRVTT和UCF-101兩個(gè)零樣本視頻生成任務(wù)上使用GPDiT-H進(jìn)行實(shí)驗(yàn)。訓(xùn)練數(shù)據(jù)與測試集無重疊,從而驗(yàn)證模型對(duì)未見數(shù)據(jù)的泛化能力。同時(shí),為評(píng)估擬合能力,在UCF-101上訓(xùn)練GPDiT-B模型并測量其生成性能。兩個(gè)模型均基于5輸入幀生成12幀視頻序列,采用FID、FVD和IS指標(biāo)評(píng)估生成結(jié)果。推理時(shí),GPDiT-H使用1.2尺度的分類器無關(guān)引導(dǎo),GPDiT-B則使用2.0尺度。
主要結(jié)果。下表2顯示GPDiT在MSRVTT上取得FID=7.4和FVD=68的競爭力表現(xiàn),證明其無需接觸測試數(shù)據(jù)即可處理多樣化視頻生成任務(wù)的有效性。
此外,GPDiT在FID和FVD指標(biāo)上持續(xù)超越先前方法,凸顯其處理廣泛未見視頻數(shù)據(jù)的潛力。在UCF-101上,GPDiT同樣表現(xiàn)優(yōu)異,IS達(dá)66.5、FID為14.8、FVD為243。值得注意的是,經(jīng)過2400萬視頻數(shù)據(jù)訓(xùn)練的GPDiT-H-LONG取得最佳結(jié)果(IS=66.6、FID=7.9、FVD=218),進(jìn)一步展現(xiàn)模型的泛化能力。如下表3所示,僅8000萬參數(shù)的GPDiT-B-OF2和GPDiT-B-OF均與UCF-101分布高度對(duì)齊,分別獲得214和216的FVD分?jǐn)?shù),驗(yàn)證了GPDiT在分布擬合中的有效性及其在不同規(guī)模下的穩(wěn)健性。
下圖4展示了在MovieGenBench數(shù)據(jù)集上基于13輸入幀生成并擴(kuò)展至16幀的視頻可視化結(jié)果。
視頻表征
為評(píng)估模型表征能力,采用兩種注意力機(jī)制對(duì)GPDiT-B和GPDiT-H各層特征進(jìn)行線性探測實(shí)驗(yàn)。GPDiT-B在UCF-101上訓(xùn)練,而GPDiT-H使用閉源開放域數(shù)據(jù)集訓(xùn)練,因此測量的表征能力同時(shí)涵蓋擬合性與泛化性。探測任務(wù)通過全局池化凍結(jié)GPDiT模型提取的特征,并訓(xùn)練邏輯層完成UCF-101分類任務(wù)構(gòu)建。每個(gè)樣本均勻選取間隔3幀的13幀,不經(jīng)時(shí)間旋轉(zhuǎn)輸入主干網(wǎng)絡(luò)。
主要結(jié)果。下圖5a顯示GPDiT-B模型兩種注意力機(jī)制的分類準(zhǔn)確率。值得注意的是,OF2顯著優(yōu)于OF,表明干凈上下文幀間交互能提升表征性能,這與直覺一致——干凈幀交互增強(qiáng)了模型對(duì)內(nèi)容的理解能力。我們還發(fā)現(xiàn)分類準(zhǔn)確率在淺層達(dá)到峰值,先上升后緩慢下降,這與REPA的分類結(jié)果一致:增強(qiáng)的表征能力強(qiáng)化了淺層擬合。這進(jìn)一步驗(yàn)證GPDiT提升表征質(zhì)量的能力。圖5b展示GPDiT-H-OF2在不同訓(xùn)練步數(shù)和層數(shù)的分類準(zhǔn)確率。隨著訓(xùn)練推進(jìn),準(zhǔn)確率持續(xù)提升。此外,由于GPDiT-H-OF2在UCF-101上為零樣本,準(zhǔn)確率在2/3層達(dá)到峰值,與GPDiT-B結(jié)果不一致。圖5c顯示GPDiT-H-OF2生成指標(biāo)(FVD)與分類準(zhǔn)確率的關(guān)聯(lián)性,可見生成能力與表征能力呈明顯正相關(guān),表明訓(xùn)練過程中生成性能與理解能力同步提升。
視頻小樣本學(xué)習(xí)
預(yù)訓(xùn)練的GPDiT展現(xiàn)出強(qiáng)大表征能力,且其自回歸范式支持通過序列拼接實(shí)現(xiàn)條件生成,無需VACE或IP-Adapter等額外模塊即可泛化至其他任務(wù)。這促使我們探究預(yù)訓(xùn)練模型在灰度轉(zhuǎn)換、深度估計(jì)、人體檢測、圖像上色、Canny邊緣到圖像重建及兩種風(fēng)格遷移任務(wù)中的小樣本學(xué)習(xí)能力。預(yù)訓(xùn)練GPDiT-H模型以批量大小4微調(diào)500次,優(yōu)化生成基于輸入圖像和上下文演示的條件變換結(jié)果。測試時(shí),模型使用兩對(duì)(源,目標(biāo))樣本作為動(dòng)態(tài)條件輸入,為未見源圖像生成變換輸出。
主要結(jié)果。下圖6與圖7表明GPDiT經(jīng)小樣本學(xué)習(xí)后可遷移至多下游任務(wù)。實(shí)驗(yàn)清晰展示模型能輕松實(shí)現(xiàn)彩色-黑白圖像互轉(zhuǎn)。在人體檢測任務(wù)中,模型準(zhǔn)確區(qū)分人數(shù)并識(shí)別骨骼輪廓。此外,它支持通過邊緣圖生成受控實(shí)例的可控編輯,例如圖7顯示Canny邊緣到圖像任務(wù)生成的鳥類嚴(yán)格遵循輪廓細(xì)節(jié)。還探索了流行風(fēng)格遷移,如TikTok人臉轉(zhuǎn)卡通及GPT4o-吉卜力藝術(shù)風(fēng)格切換(圖7)。由于僅需20樣本即可完成小樣本學(xué)習(xí)(類似GPT-2),這表明更大規(guī)模GPDiT模型可能具備類似GPT-2到GPT-3演進(jìn)中出現(xiàn)的上下文學(xué)習(xí)(ICL)能力。
結(jié)論
本文提出統(tǒng)一自回歸建模與擴(kuò)散模型的新視頻生成框架。方法融合輕量級(jí)注意力機(jī)制(利用時(shí)間冗余降低計(jì)算開銷)和無參數(shù)旋轉(zhuǎn)時(shí)間條件策略(高效注入時(shí)間信息),這些設(shè)計(jì)在不損失性能的前提下加速訓(xùn)練與推理。大量實(shí)驗(yàn)證明,該模型在視頻生成中達(dá)到SOTA性能,在視頻表征中取得競爭性結(jié)果,并在小樣本多任務(wù)場景中展現(xiàn)強(qiáng)泛化能力,凸顯其在多樣化視頻建模任務(wù)中的適應(yīng)性與通用性。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
