詳解Latte:應(yīng)用于文生視頻的DiT模型
論文題目:
Latte: Latent Diffusion Transformer for Video Generation
論文鏈接:
??https://arxiv.org/pdf/2401.03048v1.pdf??
開源鏈接:
??https://github.com/Vchitect/Latte??
項(xiàng)目主頁:
??https://maxin-cn.github.io/latte_project/??
先來看下Latte的視頻生成效果。
一、 方法介紹
總體上,Latte 包含兩個(gè)主要模塊:預(yù)訓(xùn)練 VAE 和視頻 DiT。預(yù)訓(xùn)練 VAE 編碼器將視頻逐幀從像素空間壓縮到隱空間,視頻 DiT 對(duì)隱式表征提取 token 并進(jìn)行時(shí)空建模,最后 VAE 解碼器將特征映射回像素空間生成視頻。為了得到最優(yōu)的視頻質(zhì)量,作者著重探究了 Latte 設(shè)計(jì)中兩個(gè)重要內(nèi)容,(1) 視頻 DiT 模型整體結(jié)構(gòu)設(shè)計(jì)以及 (2) 模型與訓(xùn)練細(xì)節(jié)的最優(yōu)設(shè)計(jì)(The best practices)。
1.1 Latte 整體模型結(jié)構(gòu)設(shè)計(jì)探究
圖 1. Latte 模型結(jié)構(gòu)及其變體
作者提出了 4 種不同的 Latte 變體 (圖 1),從時(shí)空注意力機(jī)制的角度設(shè)計(jì)了兩種 Transformer 模塊,同時(shí)在每種模塊中分別研究了兩種變體(Variant):
1.單注意力機(jī)制模塊,每個(gè)模塊中只包含時(shí)間或者空間注意力。
時(shí)空交錯(cuò)式建模 (Variant 1): 時(shí)間模塊插入到各個(gè)空間模塊之后。
時(shí)空順序式建模 (Variant 2): 時(shí)間模塊整體置于空間模塊之后。
2. 多注意力機(jī)制模塊,每個(gè)模塊中同時(shí)包含時(shí)間與空間注意力機(jī)制 (Open-sora所參考變體)。
串聯(lián)式時(shí)空注意力機(jī)制 (Variant 3): 時(shí)空注意力機(jī)制串行建模。
并聯(lián)式時(shí)空注意力機(jī)制 (Variant 4): 時(shí)空注意力機(jī)制并行建模并特征融合。
實(shí)驗(yàn)表明 (圖 2),通過對(duì) 4 種模型變體設(shè)置相同的參數(shù)量,變體 4 相較于其他三種變體在 FLOPS 上有著明顯的差異,因此 FVD 上也相對(duì)最高,其他 3 種變體總體性能類似,變體 1 取得了最優(yōu)異的性能,作者計(jì)劃未來在大規(guī)模的數(shù)據(jù)上做更加細(xì)致的討論。
圖 2. 模型結(jié)構(gòu) FVD
1.2 Latte 模型與訓(xùn)練細(xì)節(jié)的最優(yōu)設(shè)計(jì)探究(The best practices)
除了模型總體結(jié)構(gòu)設(shè)計(jì),作者還探究了其他模型與訓(xùn)練中影響生成效果的因素。
1.Token 提取:探究了單幀 token(a)和時(shí)空 token(b)兩種方式,前者只在空間層面壓縮 token,后者同時(shí)壓縮時(shí)空信息。實(shí)驗(yàn)顯示單幀 token 要優(yōu)于時(shí)空 token(圖 4)。與 Sora 進(jìn)行比較,作者猜測(cè) Sora 提出的時(shí)空 token 是通過視頻 VAE 進(jìn)行了時(shí)間維度的預(yù)壓縮,而在隱空間上與 Latte 的設(shè)計(jì)類似都只進(jìn)行了單幀 token 的處理。
圖 3. Token 提取方式,(a) 單
幀 token 和 (b) 時(shí)空 token
圖 4. Token 提取 FVD
2.條件注入模式:探究了(a)S-AdaLN 和(b)all tokens 兩種方式 (圖 5)。S-AdaLN 通過 MLP 將條件信息轉(zhuǎn)換為歸一化中的變量注入到模型中。All token 形式將所有條件轉(zhuǎn)化為統(tǒng)一的 token 作為模型的輸入。實(shí)驗(yàn)證明,S-AdaLN 的方式相較于 all token 對(duì)于獲得高質(zhì)量的結(jié)果更加有效 (圖 6)。原因是,S-AdaLN 可以使信息被直接注入到每一個(gè)模塊。而 all token 需要將條件信息從輸入逐層傳遞到最后,存在著信息流動(dòng)過程中的損失。
圖 5. (a) S-AdaLN 和 (b) all tokens。
圖 6. 條件注入方式 FVD
3.時(shí)空位置編碼:探究了絕對(duì)位置編碼與相對(duì)位置編碼。不同的位置編碼對(duì)最后視頻質(zhì)量影響很小 (圖 7)。由于生成時(shí)長較短,位置編碼的不同不足以影響視頻質(zhì)量,對(duì)于長視頻生成,這一因素需要被重新考慮。
圖 7. 位置編碼方式 FVD
4.模型初始化:探究使用 ImageNet 預(yù)訓(xùn)練參數(shù)初始化對(duì)模型性能的影響。實(shí)驗(yàn)表明,使用 ImageNet 初始化的模型具有較快的收斂速度,然而,隨著訓(xùn)練的進(jìn)行,隨機(jī)初始化的模型卻取得了較好的結(jié)果 (圖 8)??赡艿脑蛟谟?ImageNet 與訓(xùn)練集 FaceForensics 存在著比較大的分布差異,因此未能對(duì)模型的最終結(jié)果起到促進(jìn)作用。而對(duì)于文生視頻任務(wù)而言,該結(jié)論需要被重新考慮。在通用數(shù)據(jù)集的分布上,圖像與視頻的內(nèi)容空間分布相似,使用預(yù)訓(xùn)練 T2I 模型對(duì)于 T2V 可以起到極大的促進(jìn)作用。
圖 8. 初始化參數(shù) FVD
5.圖像視頻聯(lián)合訓(xùn)練:將視頻與圖像壓縮為統(tǒng)一 token 進(jìn)行聯(lián)合訓(xùn)練,視頻 token 負(fù)責(zé)優(yōu)化全部參數(shù),圖像 token 只負(fù)責(zé)優(yōu)化空間參數(shù)。聯(lián)合訓(xùn)練對(duì)于最終的結(jié)果有著顯著的提升 (表 2 和表 3),無論是圖片 FID,還是視頻 FVD,通過聯(lián)合訓(xùn)練都得到了降低,該結(jié)果與基于 UNet 的框架 [2][3] 是一致的。
6.模型尺寸:探究了 4 種不同的模型尺寸,S,B,L 和 XL (表 1)。擴(kuò)大視頻 DiT 規(guī)模對(duì)于提高生成樣本質(zhì)量有著顯著的幫助 (圖 9)。該結(jié)論也證明了在視頻擴(kuò)散模型中使用 Transformer 結(jié)構(gòu)對(duì)于后續(xù) scaling up 的正確性。
表 1. Latte 不同尺寸模型規(guī)模
圖 9. 模型尺寸 FVD
三、定性與定量分析
作者分別在 4 個(gè)學(xué)術(shù)數(shù)據(jù)集(FaceForensics,TaichiHD,SkyTimelapse 以及 UCF101)進(jìn)行了訓(xùn)練。定性與定量(表 2 和表 3)結(jié)果顯示 Latte 均取得了最好的性能,由此可以證明模型整體設(shè)計(jì)是具有優(yōu)異性的。
表 2. UCF101 圖片質(zhì)量評(píng)估
表 3. Latte 與 SoTA 視頻質(zhì)量評(píng)估
三、文生視頻擴(kuò)展
為了進(jìn)一步證明 Latte 的通用性能,作者將 Latte 擴(kuò)展到了文生視頻任務(wù),利用預(yù)訓(xùn)練 PixArt-alpha [4] 模型作為空間參數(shù)初始化,按照最優(yōu)設(shè)計(jì)的原則,在經(jīng)過一段時(shí)間的訓(xùn)練之后,Latte 已經(jīng)初步具備了文生視頻的能力。后續(xù)計(jì)劃通過擴(kuò)大規(guī)模驗(yàn)證 Latte 生成能力的上限。
四、討論與總結(jié)
Latte 作為全世界首個(gè)開源文生視頻 DiT,已經(jīng)取得了很有前景的結(jié)果,但由于計(jì)算資源的巨大差異,在生成清晰度,流暢度上以及時(shí)長上與 Sora 相比還具有不小的差距。團(tuán)隊(duì)歡迎并在積極尋求各種合作,希望通過開源的力量,打造出性能卓越的自主研發(fā)大規(guī)模通用視頻生成模型。
參考文獻(xiàn)
[1] Peebles, William, and Saining Xie. "Scalable diffusion models with transformers." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
[2] Ho, Jonathan, et al. Imagen video: High definition video generation with diffusion models. arXiv preprint arXiv:2210.02303 (2022)
[3] Wang, Yaohui, et al. "Lavie: High-quality video generation with cascaded latent diffusion models." arXiv preprint arXiv:2309.15103 (2023).
[4] Chen, Junsong, et al. "PixArt-: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis." arXiv preprint arXiv:2310.00426 (2023).
Illustration From IconScout By 22
本文轉(zhuǎn)載自??將門創(chuàng)投??,作者:王耀暉 ????
