文生圖擊敗所有擴散SOTA方案!智源研究院等提出NOVA:邁向統(tǒng)一的多任務(wù)大模型
文章鏈接:https://arxiv.org/pdf/2412.14169
Github鏈接:https://github.com/baaivision/NOVA
亮點直擊:
- 高效的自回歸建模:NOVA提出了不使用向量量化的自回歸視頻生成方法,通過時間步預(yù)測和空間集預(yù)測的分離,結(jié)合雙向建模,在提高生成效率的同時保持較高的視覺保真度和流暢性。
- 顯著降低訓練成本:NOVA在文本到圖像生成任務(wù)中超越了最先進的圖像擴散模型,不僅在生成質(zhì)量上表現(xiàn)出色,而且在訓練成本上大幅降低,使得視頻生成任務(wù)更具實用性。
- 良好的zero-shot泛化能力:NOVA能夠處理不同的視頻時長和應(yīng)用場景,具有強大的zero-shot能力,使其成為一個統(tǒng)一的多功能模型,適應(yīng)多種生成任務(wù)。
文生圖效果一覽
總結(jié)速覽
解決的問題:
- 現(xiàn)有的自回歸視頻生成模型(如圖像或視頻片段通過向量量化轉(zhuǎn)換為離散值標記空間后進行逐標記預(yù)測)面臨著高保真度和高壓縮率難以同時實現(xiàn)的問題。
- 向量量化的標記生成方法需要更多的標記來保證高質(zhì)量,從而導(dǎo)致圖像分辨率或視頻序列較長時,計算成本顯著增加。
- 在自回歸(AR)視覺生成領(lǐng)域,現(xiàn)有方法通常采用柵格掃描預(yù)測,導(dǎo)致生成效率較低,且對于大規(guī)模視頻數(shù)據(jù)的處理能力有限。
提出的方案:
- 提出了一種新的自回歸視頻生成方法,稱為NOVA,通過不使用向量量化的方式進行視頻生成建模。
- 該方法將視頻生成問題重新表述為非量化的自回歸建模,分為時間步預(yù)測和空間集預(yù)測兩個部分。
- NOVA維持了GPT風格模型的因果特性(Causal Property),確保了靈活的上下文學習能力,同時在單幀內(nèi)使用雙向建模(Bidirectional Modeling)來提高效率。
應(yīng)用的技術(shù):
- 自回歸建模(Autoregressive Modeling):通過不使用向量量化來實現(xiàn)幀對幀的時間預(yù)測和集對集的空間預(yù)測。
- 雙向建模:在單幀內(nèi)進行雙向建模,以提高生成效率,減少計算資源需求。
- GPT風格因果建模:保持因果關(guān)系,使模型能夠靈活地進行上下文學習。
達到的效果:
- NOVA模型比現(xiàn)有的自回歸視頻生成模型在數(shù)據(jù)效率、推理速度、視覺保真度和視頻流暢性上具有顯著優(yōu)勢,且模型容量較小,僅為0.6B參數(shù)。
- 較低的訓練成本:在文本到圖像生成任務(wù)中,NOVA超越了當前最先進的圖像擴散模型,同時降低了訓練成本。
- 廣泛的zero-shot應(yīng)用能力:NOVA模型在不同的視頻時長和應(yīng)用場景中具有良好的泛化能力。
方法
NOVA 框架的pipeline和實現(xiàn)細節(jié),如下圖 2 所示。
重新思考自回歸模型在視頻生成中的應(yīng)用
本文將文本到視頻生成視為基本任務(wù),將自回歸(AR)模型視為基本手段。自回歸視頻生成方法主要有兩種類型:
(1) 通過柵格掃描順序的逐token生成。這些研究在視頻幀序列中執(zhí)行因果逐token預(yù)測,并按照柵格掃描順序依次解碼視覺token:
(2) 隨機順序的mask集生成方法將每個視頻幀內(nèi)的所有標記視為平等,使用雙向transformer解碼器進行每組token的預(yù)測。然而,這種廣義的自回歸(AR)模型是在大型固定長度的視頻幀上進行同步建模訓練的,這可能導(dǎo)致在上下文上的可擴展性差,并且在較長的視頻時長中存在一致性問題。因此,NOVA 提出了一個新解決方案,通過將單個視頻幀內(nèi)的每組生成與整個視頻序列中的每幀預(yù)測解耦。這使得 NOVA 能夠更好地處理時間因果性和空間關(guān)系,提供了一個更靈活、更具可擴展性的 AR 框架。
時間自回歸建模通過逐幀預(yù)測
使用預(yù)訓練的語言模型將文本提示編碼為特征。為了更好地控制視頻動態(tài),使用 OpenCV (cv2)計算采樣視頻幀的光流。平均光流幅度作為運動評分,并與提示信息進行整合。此外,采用開源的 3D 變分自編碼器(VAE),其時間步長為 4,空間步長為 8,將視頻幀編碼到隱空間。增加了一個額外的可學習的補丁嵌入層,空間步長為 4,用以對齊隱視頻通道到后續(xù)的transformer。值得注意的是,早期 AR 模型中的下一個標記預(yù)測對于單個圖像中的無向視覺補丁似乎是反直覺的,并且在推理過程中存在較高的延遲。相比之下,視頻幀可以自然地看作一個因果序列,每個幀充當自回歸生成的元單元。因此實現(xiàn)了如圖 3(a) 所示的塊級因果遮罩注意力,確保每個幀只能關(guān)注文本提示、視頻光流以及其前面的幀,同時允許所有當前幀標記彼此可見:
空間自回歸建模通過集對集預(yù)測
將每個token集定義為來自隨機方向的多個標記作為元因果標記,如上圖 3(b) 所示,從而促進了一個高效并行解碼的廣義 AR 過程。嘗試利用時間層輸出的目標幀指示特征來輔助空間層,逐漸解碼對應(yīng)圖像中的所有隨機masked token集。然而,這種方法導(dǎo)致了圖像結(jié)構(gòu)崩塌和隨幀數(shù)增加而導(dǎo)致的視頻流暢性不一致。我們假設(shè)這種情況的發(fā)生是因為來自相鄰幀的指示特征相似,難以在沒有顯式建模的情況下準確學習連續(xù)和微小的運動變化。此外,訓練期間從真實框架獲得的指示特征對空間 AR 層的魯棒性和穩(wěn)定性貢獻較弱,無法有效抵抗累積推理誤差。
擴散過程去噪用于逐標記預(yù)測
在訓練過程中,引入了擴散損失來估算連續(xù)值空間中的per-token概率。例如,定義一個真實標記為 ,并且 NOVA 的輸出為 。損失函數(shù)可以表述為去噪準則:
實驗
實驗設(shè)置
數(shù)據(jù)集:
我們采用多個多樣化、精心挑選的高質(zhì)量數(shù)據(jù)集來訓練我們的 NOVA。對于文本到圖像的訓練,最初從 DataComp、COYO、Unsplash和 JourneyDB收集了 1600 萬個圖像-文本對。為了探索 NOVA 的擴展性,通過從 LAION、DataComp 和 COYO 中選擇更多最低美學評分為 5.0 的圖像,擴展了數(shù)據(jù)集,最終達到約 6 億個圖像-文本對。對于文本到視頻的訓練,從 Panda-70M的子集和內(nèi)部視頻-文本對中選擇了 1900 萬個視頻-文本對。進一步從 Pexels收集了 100 萬個高分辨率視頻-文本對,以微調(diào)我們的最終視頻生成模型。根據(jù) (Diao et al. (2024)),訓練了一個基于 Emu2-17B模型的字幕引擎,為我們的圖像和視頻數(shù)據(jù)集創(chuàng)建高質(zhì)量的描述。最大文本長度設(shè)置為 256。
架構(gòu):
主要遵循 (Li et al. (2024c)) 構(gòu)建 NOVA 的空間 AR 層和去噪 MLP 塊,包括 LayerNorm、AdaLN、線性層、SiLU 激活 和另一個線性層。配置了 16 層的時間編碼器、空間編碼器和解碼器,維度分別為 768(0.3B)、1024(0.6B)或 1536(1.4B)。去噪 MLP 由 3 個維度為 1280 的塊組成??臻g層采用 MAR的編碼-解碼架構(gòu),類似于 MAE。具體來說,編碼器處理可見的圖像塊進行重建,而解碼器進一步處理可見和被遮掩的塊進行生成。為了捕捉圖像的隱空間特征,使用了 (Lin et al. (2024)) 中的一個預(yù)訓練并凍結(jié)的 VAE,它在時間維度上實現(xiàn)了 4 倍壓縮,在空間維度上實現(xiàn)了 8×8 的壓縮。采用了 (Li et al. (2024c); Nichol & Dhariwal (2021)) 的mask和擴散調(diào)度器,在訓練過程中使用 0.7 到 1.0 之間的mask例,并在推理過程中根據(jù)余弦調(diào)度將其從 1.0 逐漸減少到 0。與常見做法一致 (Ho et al. (2020)),訓練時使用 1000 步的噪聲調(diào)度,但推理時默認為 100 步。
訓練細節(jié):
評估:
使用 T2I-CompBench、GenEval和 DPG-Bench來評估生成圖像與文本條件之間的對齊度。對于每個原始或改寫的文本提示 (Wang et al. (2024)),生成圖像樣本,每個圖像樣本的分辨率為 512×512 或 1024×1024。使用 VBench來評估文本到視頻生成在 16 個維度上的能力。對于給定的文本提示,隨機生成 5 個樣本,每個樣本的視頻大小為 33×768×480。在所有評估實驗中采用了 7.0 的無分類器引導(dǎo),并結(jié)合 128 步自回歸步驟來提高生成圖像和視頻的質(zhì)量。
主要結(jié)果
NOVA 在文本到圖像生成模型中超越了現(xiàn)有的模型,展現(xiàn)出卓越的性能和效率。
在 表 2 中,將 NOVA 與幾種近期的文本到圖像模型進行比較,包括 PixArt-α、SD v1/v2 、SDXL 、DALL-E2 、DALL-E3、SD3、LlamaGen和 Emu3。經(jīng)過文本到圖像的訓練后,NOVA 在 GenEval 基準測試中取得了最先進的表現(xiàn),尤其是在生成特定數(shù)量的目標時表現(xiàn)突出。
特別地,NOVA 在 T2I-CompBench 和 DPG-Bench 上也取得了領(lǐng)先的成績,在小規(guī)模模型和大規(guī)模數(shù)據(jù)下表現(xiàn)優(yōu)異(僅需 PixArt-α 最佳競爭者的 16% 訓練開銷)。最后,我們的文本到視頻模型也超越了大多數(shù)專門的文本到圖像模型,例如 SD v1/v2、SDXL 和 DALL-E2。這突顯了我們模型在多上下文場景中的魯棒性和多功能性,尤其是在文本到視頻生成這一基本訓練任務(wù)上表現(xiàn)尤為突出。
NOVA 在與擴散文本到視頻模型的競爭中表現(xiàn)出色,并顯著抑制了自回歸(AR)對比模型。強調(diào)當前版本的 NOVA 設(shè)計用于生成 33 幀視頻,并可以通過預(yù)填充最近生成的幀來擴展視頻長度。進行了定量分析,將 NOVA 與開源和專有的文本到視頻模型進行比較。如 表 3 所示,盡管其模型規(guī)模顯著較?。?.6B 與 9B),NOVA 在多項文本到視頻評估指標中明顯超越了CogVideo。它的性能與最新的 SOTA 模型 Emu3相當(80.12 與 80.96),但其規(guī)模遠?。?.6B 與 8B)。
此外,將 NOVA 與最先進的擴散模型進行了比較。包括 Gen-2、Kling、Gen-3等閉源模型,以及 LaVie、Show-1、AnimateDiff-v2、VideoCrafter-v2.0、T2V-Turbo、OpenSora-v1.1、OpenSoraPlan-v1.1/v1.2和 CogVideoX等開源替代方案。結(jié)果凸顯了文本到圖像預(yù)訓練在我們廣義因果過程中的有效性。值得注意的是,縮小了自回歸與擴散方法在建模大規(guī)模視頻文本對中的差距,提升了視頻生成的質(zhì)量和指令跟隨能力。此外,NOVA 在推理延遲方面展示了相較于現(xiàn)有模型的顯著速度優(yōu)勢。
定性結(jié)果
高保真圖像和高流暢度視頻
我們展示了當前領(lǐng)先圖像生成方法的定性比較,如 圖 4 所示。NOVA 在各種提示風格下表現(xiàn)出強大的視覺質(zhì)量和保真度,尤其在顏色屬性綁定和空間物體關(guān)系方面表現(xiàn)出色。在 圖 5 中展示了文本到視頻的可視化,突出展示了 NOVA 捕捉多視角、平滑物體運動以及穩(wěn)定場景過渡的能力,這些都基于提供的文本提示。
zero-shot 視頻外推的泛化能力
通過預(yù)填充生成的幀,NOVA 能夠生成超越訓練長度的視頻。例如,通過調(diào)整文本和 BOV 嵌入,我們生成了比原始視頻長兩倍的 5 秒視頻,如 圖 6 所示。在視頻外推過程中,我們觀察到 NOVA 始終保持幀間的時間一致性。例如,當提示描述一個穹頂和一個燈籠房間時,模型準確地展示了屋內(nèi)的照明效果,并捕捉了日落過渡的細節(jié)。這進一步凸顯了因果建模在長時間上下文視頻生成任務(wù)中的優(yōu)勢。
zero-shot 在多個上下文中的泛化能力
通過預(yù)填充參考圖像,NOVA 能夠生成圖像到視頻的轉(zhuǎn)換,無論是否有文本提示。在 圖 7 中,我們提供了一個定性示例,展示了 NOVA 在沒有文本提示的情況下模擬現(xiàn)實運動的能力。此外,當文本提示被包含時,透視運動顯得更加自然。這表明 NOVA 能夠捕捉到基本的物理規(guī)律,如相互作用力和流體動力學。
消融實驗
時序自回歸建模的有效性
為了突出時序自回歸建模的優(yōu)勢,我們讓空間自回歸來完成視頻生成任務(wù)。具體來說,我們修改了時序?qū)拥淖⒁饬ρ诖a,改為雙向注意力,并使用按集合預(yù)測的方式隨機預(yù)測整個視頻序列。在相同的訓練迭代下,我們觀察到視頻中的物體運動減少(如 圖 8 所示)。此外,在跨多個上下文的zero-shot 泛化或視頻外推中,網(wǎng)絡(luò)輸出出現(xiàn)了更多的偽影和時間一致性問題。此外,這種方法在推理時不兼容 kv-cache 加速,導(dǎo)致隨著視頻幀數(shù)的增加,延遲線性增長。這進一步證明了因果建模在視頻生成中的優(yōu)越性,優(yōu)于多任務(wù)方法。
縮放和位移層的有效性
為了捕捉跨幀的運動變化,我們采用了一個簡單但有效的縮放和位移層,顯式地建模了來自 BOV 關(guān)注特征空間的相對分布。在 圖 9(a) 中,我們展示了這種方法顯著減少了文本到圖像生成和圖像到視頻生成損失之間的漂移。當我們逐漸減小 MLP 的內(nèi)部秩時,訓練難度增加,導(dǎo)致網(wǎng)絡(luò)進行更加全面和魯棒的學習過程。然而,極低的秩值在運動建模方面會帶來挑戰(zhàn),因為它們顯著限制了該層的表示能力(如 圖 10 所示)。在所有文本到視頻的實驗中,秩值默認為 24,從而實現(xiàn)了更準確的運動預(yù)測。
后歸一化層的有效性
從零開始訓練大規(guī)模的圖像和視頻生成模型通常面臨著混合精度的重大挑戰(zhàn),這在其他視覺識別方法中也有類似表現(xiàn)。如 圖 9(b) 所示,使用預(yù)歸一化的訓練過程會遭遇數(shù)值溢出和方差不穩(wěn)定的問題。嘗試了在殘差分支上應(yīng)用各種正則化技術(shù),如隨機深度和殘差 dropout,但發(fā)現(xiàn)這些方法效果較差。受到 (Liu et al. (2022)) 的啟發(fā),引入了后歸一化,并通過實驗證明,后歸一化能夠有效地緩解輸出嵌入的殘差積累問題,相較于預(yù)歸一化,它能帶來更加穩(wěn)定的訓練過程。
結(jié)論
NOVA,一種新型的自回歸模型,旨在同時實現(xiàn)文本到圖像和文本到視頻的生成。NOVA 在提供卓越的圖像質(zhì)量和視頻流暢性的同時,顯著減少了訓練和推理的開銷。關(guān)鍵設(shè)計包括時間幀逐幀預(yù)測、空間集逐集生成,以及跨各種上下文的連續(xù)空間自回歸建模。大量實驗證明,NOVA 在圖像生成方面達到了接近商業(yè)質(zhì)量,并在視頻生成中展現(xiàn)出令人滿意的保真度和流暢度。NOVA 為下一代視頻生成和世界模型鋪平了道路,提供了關(guān)于實時和無限視頻生成的寶貴見解和可能性,超越了像 Sora 這樣的擴散視頻模型。作為第一步,我們將在未來的工作中繼續(xù)進行更大規(guī)模的實驗和數(shù)據(jù)擴展,探索 NOVA 的極限。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
