自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<em id="99ewj"></em>

<em id="99ewj"></em>

<abbr id="99ewj"></abbr>

<abbr id="99ewj"><strong id="99ewj"></strong></abbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

詳解Latte：應(yīng)用于文生視頻的DiT模型

發(fā)布于 2024-4-7 11:13

瀏覽

0收藏

隨著 Sora 的成功發(fā)布，視頻 DiT 模型得到了大量的關(guān)注和討論。設(shè)計(jì)穩(wěn)定的超大規(guī)模神經(jīng)網(wǎng)絡(luò)一直是視覺生成領(lǐng)域的研究重點(diǎn)。DiT [1] 的成功為圖像生成的規(guī)模化提供了可能性。然而，由于視頻數(shù)據(jù)的高度結(jié)構(gòu)化與復(fù)雜性，如何將 DiT 擴(kuò)展到視頻生成領(lǐng)域卻是一個(gè)挑戰(zhàn)，來自上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)聯(lián)合其他機(jī)構(gòu)通過大規(guī)模的實(shí)驗(yàn)回答了這個(gè)問題。早在去年 11 月，該團(tuán)隊(duì)就已經(jīng)開源了一款與 Sora 技術(shù)相似的自研模型：Latte。作為全球首個(gè)開源文生視頻 DiT，Latte 受到了廣泛關(guān)注，并且模型設(shè)計(jì)被眾多開源框架所使用與參考，如 Open-Sora Plan (PKU) 和 Open-Sora (ColossalAI)。

詳解Latte：應(yīng)用于文生視頻的DiT模型-AI.x社區(qū)

論文題目：

Latte: Latent Diffusion Transformer for Video Generation

論文鏈接：

??https://arxiv.org/pdf/2401.03048v1.pdf??

開源鏈接：

??https://github.com/Vchitect/Latte??

項(xiàng)目主頁：

??https://maxin-cn.github.io/latte_project/??

先來看下Latte的視頻生成效果。

一、方法介紹

總體上，Latte 包含兩個(gè)主要模塊：預(yù)訓(xùn)練 VAE 和視頻 DiT。預(yù)訓(xùn)練 VAE 編碼器將視頻逐幀從像素空間壓縮到隱空間，視頻 DiT 對(duì)隱式表征提取 token 并進(jìn)行時(shí)空建模，最后 VAE 解碼器將特征映射回像素空間生成視頻。為了得到最優(yōu)的視頻質(zhì)量，作者著重探究了 Latte 設(shè)計(jì)中兩個(gè)重要內(nèi)容，(1) 視頻 DiT 模型整體結(jié)構(gòu)設(shè)計(jì)以及 (2) 模型與訓(xùn)練細(xì)節(jié)的最優(yōu)設(shè)計(jì)（The best practices）。

1.1 Latte 整體模型結(jié)構(gòu)設(shè)計(jì)探究

詳解Latte：應(yīng)用于文生視頻的DiT模型-AI.x社區(qū)

圖 1. Latte 模型結(jié)構(gòu)及其變體

作者提出了 4 種不同的 Latte 變體 (圖 1)，從時(shí)空注意力機(jī)制的角度設(shè)計(jì)了兩種 Transformer 模塊，同時(shí)在每種模塊中分別研究了兩種變體（Variant）：

1.單注意力機(jī)制模塊，每個(gè)模塊中只包含時(shí)間或者空間注意力。

時(shí)空交錯(cuò)式建模 (Variant 1): 時(shí)間模塊插入到各個(gè)空間模塊之后。

時(shí)空順序式建模 (Variant 2): 時(shí)間模塊整體置于空間模塊之后。

2. 多注意力機(jī)制模塊，每個(gè)模塊中同時(shí)包含時(shí)間與空間注意力機(jī)制 (Open-sora所參考變體)。

串聯(lián)式時(shí)空注意力機(jī)制 (Variant 3): 時(shí)空注意力機(jī)制串行建模。

并聯(lián)式時(shí)空注意力機(jī)制 (Variant 4): 時(shí)空注意力機(jī)制并行建模并特征融合。

實(shí)驗(yàn)表明（圖 2），通過對(duì) 4 種模型變體設(shè)置相同的參數(shù)量，變體 4 相較于其他三種變體在 FLOPS 上有著明顯的差異，因此 FVD 上也相對(duì)最高，其他 3 種變體總體性能類似，變體 1 取得了最優(yōu)異的性能，作者計(jì)劃未來在大規(guī)模的數(shù)據(jù)上做更加細(xì)致的討論。

詳解Latte：應(yīng)用于文生視頻的DiT模型-AI.x社區(qū)

圖 2. 模型結(jié)構(gòu) FVD

1.2 Latte 模型與訓(xùn)練細(xì)節(jié)的最優(yōu)設(shè)計(jì)探究（The best practices）

除了模型總體結(jié)構(gòu)設(shè)計(jì)，作者還探究了其他模型與訓(xùn)練中影響生成效果的因素。

1.Token 提取：探究了單幀 token（a）和時(shí)空 token（b）兩種方式，前者只在空間層面壓縮 token，后者同時(shí)壓縮時(shí)空信息。實(shí)驗(yàn)顯示單幀 token 要優(yōu)于時(shí)空 token（圖 4）。與 Sora 進(jìn)行比較，作者猜測(cè) Sora 提出的時(shí)空 token 是通過視頻 VAE 進(jìn)行了時(shí)間維度的預(yù)壓縮，而在隱空間上與 Latte 的設(shè)計(jì)類似都只進(jìn)行了單幀 token 的處理。

詳解Latte：應(yīng)用于文生視頻的DiT模型-AI.x社區(qū)

圖 3. Token 提取方式，(a) 單

幀 token 和 (b) 時(shí)空 token

詳解Latte：應(yīng)用于文生視頻的DiT模型-AI.x社區(qū)

圖 4. Token 提取 FVD

2.條件注入模式：探究了（a）S-AdaLN 和（b）all tokens 兩種方式 (圖 5)。S-AdaLN 通過 MLP 將條件信息轉(zhuǎn)換為歸一化中的變量注入到模型中。All token 形式將所有條件轉(zhuǎn)化為統(tǒng)一的 token 作為模型的輸入。實(shí)驗(yàn)證明，S-AdaLN 的方式相較于 all token 對(duì)于獲得高質(zhì)量的結(jié)果更加有效 (圖 6)。原因是，S-AdaLN 可以使信息被直接注入到每一個(gè)模塊。而 all token 需要將條件信息從輸入逐層傳遞到最后，存在著信息流動(dòng)過程中的損失。

詳解Latte：應(yīng)用于文生視頻的DiT模型-AI.x社區(qū)

圖 5. (a) S-AdaLN 和 (b) all tokens。

詳解Latte：應(yīng)用于文生視頻的DiT模型-AI.x社區(qū)

圖 6. 條件注入方式 FVD

3.時(shí)空位置編碼：探究了絕對(duì)位置編碼與相對(duì)位置編碼。不同的位置編碼對(duì)最后視頻質(zhì)量影響很小 (圖 7)。由于生成時(shí)長較短，位置編碼的不同不足以影響視頻質(zhì)量，對(duì)于長視頻生成，這一因素需要被重新考慮。

詳解Latte：應(yīng)用于文生視頻的DiT模型-AI.x社區(qū)

圖 7. 位置編碼方式 FVD

4.模型初始化：探究使用 ImageNet 預(yù)訓(xùn)練參數(shù)初始化對(duì)模型性能的影響。實(shí)驗(yàn)表明，使用 ImageNet 初始化的模型具有較快的收斂速度，然而，隨著訓(xùn)練的進(jìn)行，隨機(jī)初始化的模型卻取得了較好的結(jié)果 (圖 8)?？赡艿脑蛟谟?ImageNet 與訓(xùn)練集 FaceForensics 存在著比較大的分布差異，因此未能對(duì)模型的最終結(jié)果起到促進(jìn)作用。而對(duì)于文生視頻任務(wù)而言，該結(jié)論需要被重新考慮。在通用數(shù)據(jù)集的分布上，圖像與視頻的內(nèi)容空間分布相似，使用預(yù)訓(xùn)練 T2I 模型對(duì)于 T2V 可以起到極大的促進(jìn)作用。

詳解Latte：應(yīng)用于文生視頻的DiT模型-AI.x社區(qū)

圖 8. 初始化參數(shù) FVD

5.圖像視頻聯(lián)合訓(xùn)練：將視頻與圖像壓縮為統(tǒng)一 token 進(jìn)行聯(lián)合訓(xùn)練，視頻 token 負(fù)責(zé)優(yōu)化全部參數(shù)，圖像 token 只負(fù)責(zé)優(yōu)化空間參數(shù)。聯(lián)合訓(xùn)練對(duì)于最終的結(jié)果有著顯著的提升 (表 2 和表 3)，無論是圖片 FID，還是視頻 FVD，通過聯(lián)合訓(xùn)練都得到了降低，該結(jié)果與基于 UNet 的框架 [2][3] 是一致的。

6.模型尺寸：探究了 4 種不同的模型尺寸，S，B，L 和 XL (表 1)。擴(kuò)大視頻 DiT 規(guī)模對(duì)于提高生成樣本質(zhì)量有著顯著的幫助 (圖 9)。該結(jié)論也證明了在視頻擴(kuò)散模型中使用 Transformer 結(jié)構(gòu)對(duì)于后續(xù) scaling up 的正確性。

詳解Latte：應(yīng)用于文生視頻的DiT模型-AI.x社區(qū)

表 1. Latte 不同尺寸模型規(guī)模

詳解Latte：應(yīng)用于文生視頻的DiT模型-AI.x社區(qū)

圖 9. 模型尺寸 FVD

三、定性與定量分析

作者分別在 4 個(gè)學(xué)術(shù)數(shù)據(jù)集（FaceForensics，TaichiHD，SkyTimelapse 以及 UCF101）進(jìn)行了訓(xùn)練。定性與定量（表 2 和表 3）結(jié)果顯示 Latte 均取得了最好的性能，由此可以證明模型整體設(shè)計(jì)是具有優(yōu)異性的。

詳解Latte：應(yīng)用于文生視頻的DiT模型-AI.x社區(qū)

表 2. UCF101 圖片質(zhì)量評(píng)估

詳解Latte：應(yīng)用于文生視頻的DiT模型-AI.x社區(qū)

表 3. Latte 與 SoTA 視頻質(zhì)量評(píng)估

三、文生視頻擴(kuò)展

為了進(jìn)一步證明 Latte 的通用性能，作者將 Latte 擴(kuò)展到了文生視頻任務(wù)，利用預(yù)訓(xùn)練 PixArt-alpha [4] 模型作為空間參數(shù)初始化，按照最優(yōu)設(shè)計(jì)的原則，在經(jīng)過一段時(shí)間的訓(xùn)練之后，Latte 已經(jīng)初步具備了文生視頻的能力。后續(xù)計(jì)劃通過擴(kuò)大規(guī)模驗(yàn)證 Latte 生成能力的上限。

四、討論與總結(jié)

Latte 作為全世界首個(gè)開源文生視頻 DiT，已經(jīng)取得了很有前景的結(jié)果，但由于計(jì)算資源的巨大差異，在生成清晰度，流暢度上以及時(shí)長上與 Sora 相比還具有不小的差距。團(tuán)隊(duì)歡迎并在積極尋求各種合作，希望通過開源的力量，打造出性能卓越的自主研發(fā)大規(guī)模通用視頻生成模型。

參考文獻(xiàn)

[1] Peebles, William, and Saining Xie. "Scalable diffusion models with transformers." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

[2] Ho, Jonathan, et al. Imagen video: High definition video generation with diffusion models. arXiv preprint arXiv:2210.02303 (2022)

[3] Wang, Yaohui, et al. "Lavie: High-quality video generation with cascaded latent diffusion models." arXiv preprint arXiv:2309.15103 (2023).

[4] Chen, Junsong, et al. "PixArt-: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis." arXiv preprint arXiv:2310.00426 (2023).

Illustration From IconScout By 22

本文轉(zhuǎn)載自??將門創(chuàng)投??，作者：王耀暉 ????

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

VideoMamba：用于高效視頻理解的狀態(tài)空間模型

爛漫樹林 ? 3759瀏覽 ? 0回復(fù)
兩萬字長文詳解視頻擴(kuò)散模型的最新進(jìn)展

angel ? 5535瀏覽 ? 0回復(fù)
國內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開源！———Hunyuan-DiT技術(shù)報(bào)告詳解

angel ? 4971瀏覽 ? 0回復(fù)
帶物理模擬的，文生視頻模型

Aceryt ? 3406瀏覽 ? 0回復(fù)
與Sora同架構(gòu)，高效、連貫文生視頻模型

Aceryt ? 2117瀏覽 ? 0回復(fù)
詳解用于相似和抄襲檢測(cè)的技術(shù)Shingling

51CTO內(nèi)容精選 ? 2273瀏覽 ? 0回復(fù)
國外驚訝，中國文生視頻模型超高質(zhì)量！

Aceryt ? 3052瀏覽 ? 0回復(fù)
手寫Sora中的Diffusion Transformer(DiT)——探索最先進(jìn)視頻生成器背后的秘密

angel ? 2474瀏覽 ? 0回復(fù)
超全兩萬字長文詳解視頻擴(kuò)散模型的最新進(jìn)展

angel ? 6580瀏覽 ? 0回復(fù)
文生視頻模型Runway、Luma同時(shí)開放API

Aceryt ? 2531瀏覽 ? 0回復(fù)
自然（Nature）科學(xué)數(shù)據(jù)子刊：用于對(duì)話情境中情緒識(shí)別的 EEG-音頻-視頻數(shù)據(jù)集的創(chuàng)新應(yīng)用

xuxiangda ? 5356瀏覽 ? 0回復(fù)
全球首個(gè)帶背景音樂，文生1080超高清視頻模型

Aceryt ? 2549瀏覽 ? 0回復(fù)
最近爆火的GraphRAG是什么，真的能用于商業(yè)應(yīng)用嗎？

AI博物院 ? 2274瀏覽 ? 0回復(fù)
大規(guī)模情感分析：將NLP應(yīng)用于多語言和特定領(lǐng)域的文本

51CTO內(nèi)容精選 ? 2179瀏覽 ? 0回復(fù)
Google 發(fā)布了用于視頻生成的最先進(jìn)的“Veo 2”和用于圖像創(chuàng)建的“Improved Imagen 3”

Halo咯咯 ? 2055瀏覽 ? 0回復(fù)
詳解RAG應(yīng)用開發(fā)幻覺檢測(cè)利器LettuceDetect?

51CTO內(nèi)容精選 ? 1202瀏覽 ? 0回復(fù)
RAG只能應(yīng)用于文本檢索嗎？關(guān)于大模型應(yīng)用之RAG——檢索增強(qiáng)的思考

AI探索時(shí)代 ? 1148瀏覽 ? 0回復(fù)
能否將擴(kuò)散模型思想應(yīng)用于 LLMs 領(lǐng)域？大型語言擴(kuò)散模型（LLDM）詳解

Baihai_IDP ? 1335瀏覽 ? 0回復(fù)
OpenING：用于評(píng)估開放式交錯(cuò)圖文生成的綜合基準(zhǔn)

AIRoobt ? 637瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

AtomoVideo：AIGC賦能下的電商視頻動(dòng)效生成 2024-03-27 16:55:05發(fā)布
AI生成存儲(chǔ)基座：自研超大規(guī)模向量數(shù)據(jù)庫 Dolphin VectorDB 2024-03-27 16:27:48發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實(shí)戰(zhàn)教程 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

2025年最值得關(guān)注的十大多模態(tài)大語言模型！ 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復(fù)

上一篇： AtomoVideo：AIGC賦能下的電商視頻動(dòng)效生成

社區(qū)精華內(nèi)容

目錄