開源視頻模型SV4D,一鍵創(chuàng)建8角度動態(tài)3D視頻
Stability.ai開源了創(chuàng)新視頻模型Stable Video 4D(簡稱“SV4D”),可將一個(gè)視頻輕松創(chuàng)建8個(gè)角度的動態(tài)3D視頻。
使用方法也非常簡單,用戶只需要上傳視頻然后選擇3D 相機(jī)姿勢,經(jīng)過大約40秒左右的推理就能完成視頻創(chuàng)建。相比SV3D、STAG4D等同類模型,SV4D的推理效率和生成質(zhì)量都獲得了大幅度提升。
開源地址:https://huggingface.co/stabilityai/sv4d
以目前的技術(shù),用單個(gè)視頻生成動態(tài)3D視頻面臨不少難題。因?yàn)檫@涉及同時(shí)推理對象在未見過的相機(jī)視角下的外觀和運(yùn)動,同時(shí)對單個(gè)給定視頻可能有多種合理的動態(tài)解釋進(jìn)一步加大了生成難度。
此外,訓(xùn)練一個(gè)能推廣到不同對象類型和運(yùn)動的強(qiáng)大生成模型面臨兩大技術(shù)挑戰(zhàn):1)缺乏大規(guī)模的動態(tài)3D對象數(shù)據(jù)集來訓(xùn)練穩(wěn)健的生成模型;2)問題的高維性質(zhì)需要大量參數(shù)來表示對象的3D形狀、外觀和運(yùn)動。
而SV4D與以往生成模型不同的是,以一個(gè)統(tǒng)一的擴(kuò)散模型作為基礎(chǔ),能夠同時(shí)處理視頻幀和視角的生成。這種架構(gòu)解決了之前需要分別訓(xùn)練視頻生成和新視角合成的模型,效率低下的問題,而且還保證生成內(nèi)容的一致性。
在技術(shù)實(shí)現(xiàn)上,SV4D使用了Stability.ai之前開源的SVD和SV3D網(wǎng)絡(luò)結(jié)構(gòu),融合了視頻和多視角擴(kuò)散模型的優(yōu)勢。這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)包含一個(gè)多層的UNet,每層由一個(gè)殘差塊和三個(gè)帶有注意力層的transformer塊組成。
這些注意力層包括空間注意力、視角注意力和幀注意力,協(xié)同生成以確保生成的視頻在空間和時(shí)間上都具有高度的一致性。
視角注意力的設(shè)計(jì)是為了對每個(gè)視頻幀中的多視角圖像進(jìn)行對齊,以參考視頻中的第一視角為條件。這種設(shè)計(jì)允許模型在生成新視角時(shí),能夠保持與原始視角的一致性,從而確保了多視角視頻的連貫性。
幀注意力則進(jìn)一步確保了視頻在時(shí)間維度上的連貫性,通過對每個(gè)視角的多幀圖像進(jìn)行對齊,以每個(gè)視角的第一幀為條件,模型能夠生成在時(shí)間上連續(xù)且一致的視頻序列。
在模型訓(xùn)練階段,SV4D面臨的一個(gè)關(guān)鍵難題是需要同時(shí)生成V×F的圖像網(wǎng)格,對于較長的輸入視頻算力會呈指數(shù)級增長。為了解決這個(gè)問題,研究人員通過順序處理交錯(cuò)的輸入幀子集,同時(shí)保持輸出圖像網(wǎng)格的一致性。
在訓(xùn)練數(shù)據(jù)方面,由于目前還沒有大規(guī)模的動態(tài)3D對象訓(xùn)練數(shù)據(jù)集,研究人員就從現(xiàn)有的Objaverse數(shù)據(jù)集中精心整理了一個(gè)新訓(xùn)練數(shù)據(jù)集ObjaverseDy。
在整理數(shù)據(jù)集時(shí),進(jìn)行大量數(shù)據(jù)篩選然后去除動畫幀數(shù)過少的對象。為了進(jìn)一步過濾出運(yùn)動極小的對象,研究人員對每個(gè)視頻的關(guān)鍵幀進(jìn)行子采樣,并對這些幀之間的最大L1距離應(yīng)用簡單閾值作為運(yùn)動測量。在渲染訓(xùn)練新視角視頻時(shí),可靈活選擇相機(jī)與對象的距離,并動態(tài)調(diào)整時(shí)間采樣步驟,以確保獲得高質(zhì)量的動態(tài)3D對象集合和渲染的多視角視頻。
為了評估SV4D的性能,研究人員在ObjaverseDy、Consistent4D和真實(shí)世界視頻數(shù)據(jù)集DAVIS等進(jìn)行了綜合測試,并與其他先進(jìn)模型進(jìn)行了比較。
在Consistent4D數(shù)據(jù)集上,SV4D在視頻幀一致性方面表現(xiàn)出色,同時(shí)保持了與其他方法相當(dāng)?shù)膱D像質(zhì)量。與SV3D和STAG4D相比,F(xiàn)VD - F分別降低了31.5%和21.4%。
在Objaverse數(shù)據(jù)集上,SV4D在視頻幀一致性和多視角一致性方面都有顯著優(yōu)勢,F(xiàn)VD - F更低,F(xiàn)VD - V更好,在FVD - Diag和FV4D方面也超過了先前的先進(jìn)方法,證明合成的新視角視頻在視頻幀和多視角一致性方面更好。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
