自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS 精華

發(fā)布于 2025-2-7 16:18
瀏覽
0收藏

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2502.03465
git鏈接:https://github.com/Nut-World/NutWorld


亮點(diǎn)直擊

  • 首次提出了一個(gè)框架,可以通過(guò)單次前向傳播,將隨意拍攝的單目視頻中的世界動(dòng)態(tài)高效表示為動(dòng)態(tài)Gaussian Splatting(Dynamic Gaussian Splatting)。
  • NutWorld 框架結(jié)合了 STAG 表示、精心設(shè)計(jì)的前向重建網(wǎng)絡(luò),以及用于從隨意視頻中實(shí)現(xiàn)空間和時(shí)間一致性恢復(fù)的有效正則化策略。
  • 在視頻重建和多種下游任務(wù)上的大量實(shí)驗(yàn),驗(yàn)證了 NutWorld 在時(shí)空一致性和多功能性方面的表現(xiàn)。

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

總結(jié)速覽

解決的問(wèn)題

現(xiàn)有方法在表示隨意拍攝的單目視頻時(shí),因缺乏時(shí)間一致性和顯式3D結(jié)構(gòu),難以處理復(fù)雜運(yùn)動(dòng)、遮擋和幾何一致性。如何高效地以空間和時(shí)間一致的方式表示單目視頻,成為亟待解決的問(wèn)題。

提出的方案

提出了 NutWorld 框架,通過(guò)單次前向傳播,將單目視頻動(dòng)態(tài)高效地表示為動(dòng)態(tài)3D Gaussian Splatting(Dynamic Gaussian Splatting)。核心方案包括:

  • STAG(空間-時(shí)間對(duì)齊高斯)表示:無(wú)需優(yōu)化即可建模場(chǎng)景,提供高效的動(dòng)態(tài)表示。
  • 深度與流正則化策略:增強(qiáng)空間和時(shí)間一致性。
  • 精心設(shè)計(jì)的前向重建網(wǎng)絡(luò):提升重建效率和質(zhì)量。

應(yīng)用的技術(shù)

  • 時(shí)空連續(xù)的高斯原語(yǔ)流表示:以3D形式表示單目視頻,解決時(shí)間一致性問(wèn)題。
  • STAG 表示:引入結(jié)構(gòu)化的空間-時(shí)間對(duì)齊表示,提升建模效率。
  • 正則化策略:通過(guò)深度和流正則化,增強(qiáng)幾何一致性和動(dòng)態(tài)場(chǎng)景的建模能力。
  • 單次前向傳播:實(shí)現(xiàn)高效的視頻到動(dòng)態(tài)3D表示的轉(zhuǎn)換。

達(dá)到的效果

  • 高保真視頻重建:在視頻重建質(zhì)量上表現(xiàn)卓越,解決復(fù)雜運(yùn)動(dòng)和遮擋問(wèn)題。
  • 時(shí)空一致性:在空間和時(shí)間一致性方面顯著優(yōu)于現(xiàn)有方法。
  • 多功能性支持:支持多種實(shí)時(shí)下游應(yīng)用,展現(xiàn)出強(qiáng)大的適應(yīng)能力和實(shí)用性。

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

方法

本文提出了一個(gè)框架,用于以前向傳播的方式高效地從單目視頻中表示世界動(dòng)態(tài)。如下圖3所示,首先介紹了時(shí)空對(duì)齊Gaussian Splatting(STAG) 表示。為了能夠通過(guò)單次前向傳播將視頻映射到STAG,詳細(xì)說(shuō)明了基于Transformer的網(wǎng)絡(luò),該網(wǎng)絡(luò)結(jié)合了校準(zhǔn)的深度和光流先驗(yàn)。最后,討論了處理長(zhǎng)視頻片段的整體訓(xùn)練目標(biāo)和協(xié)議。

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

時(shí)空對(duì)齊高斯

規(guī)范化相機(jī)空間   給定一個(gè)未經(jīng)配準(zhǔn)的單目視頻,采用正交相機(jī)坐標(biāo)系統(tǒng),而不是絕對(duì)的3D世界坐標(biāo)系統(tǒng)。這一選擇主要基于兩個(gè)關(guān)鍵挑戰(zhàn):

  1. 在動(dòng)態(tài)場(chǎng)景中獲得一致的相機(jī)軌跡的困難;
  2. 前向3D重建模型中固有的尺度歧義問(wèn)題,其中透視投影將物體的尺度與其距離相機(jī)的遠(yuǎn)近耦合在一起。

通過(guò)采用沿z軸固定姿態(tài)的正交投影,消除了顯式相機(jī)姿態(tài)估計(jì)的必要性,同時(shí)在統(tǒng)一的規(guī)范化空間中無(wú)尺度歧義地建模相機(jī)和物體的運(yùn)動(dòng)。


結(jié)構(gòu)化動(dòng)態(tài)高斯   為了克服動(dòng)態(tài)高斯噴射中不結(jié)構(gòu)化的特性,并促進(jìn)神經(jīng)網(wǎng)絡(luò)的集成,在規(guī)范化相機(jī)空間中引入了時(shí)空對(duì)齊Gaussian Splatting(STAG)。與之前通過(guò)可變形場(chǎng)在正交時(shí)空中預(yù)測(cè)無(wú)約束高斯的方法不同,STAG將每個(gè)動(dòng)態(tài)高斯約束到特定的像素位置和時(shí)間戳。


對(duì)于一個(gè)輸入幀 ,其歸一化時(shí)間戳為 ,計(jì)算一個(gè)高斯特征圖 ,其中 和 表示空間維度, 表示通道維度。每個(gè) 維像素被解碼為一個(gè)3D高斯及其相關(guān)的形變場(chǎng) ,以像素對(duì)齊的方式進(jìn)行。

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

在“Nutshell”中封裝動(dòng)態(tài)

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

校準(zhǔn)的 2D 先驗(yàn)正則化

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

訓(xùn)練和推理

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

基于分段的長(zhǎng)視頻推理   為了處理包含數(shù)百幀的隨意拍攝視頻,在推理階段提出了一種簡(jiǎn)單但有效的基于分段的策略。輸入視頻被劃分為重疊的片段,相鄰片段共享一個(gè)幀。由于我們基于像素級(jí)的時(shí)空表示,高斯軌跡可以通過(guò)這些共享幀在片段之間無(wú)縫傳播,從而使 NutWorld 能夠在保持時(shí)空一致性的同時(shí)處理任意長(zhǎng)度的視頻。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

訓(xùn)練數(shù)據(jù)集  NutWorld 在 MiraData 和 RealEstate10K 數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。


MiraData 是一個(gè)高質(zhì)量的視頻數(shù)據(jù)集,主要由3D引擎生成的場(chǎng)景和電影片段組成,具有多樣的運(yùn)動(dòng)模式。RealEstate10K 數(shù)據(jù)集包含室內(nèi)房屋導(dǎo)覽視頻,展示了各種建筑場(chǎng)景和相機(jī)運(yùn)動(dòng)模式。


在預(yù)處理過(guò)程中,將原始視頻分割成視頻塊,每個(gè)視頻塊包含10幀連續(xù)幀,作為基本處理單元。


實(shí)現(xiàn)細(xì)節(jié)   NutWorld 在 32 張 NVIDIA A100 (80GB) GPU 上進(jìn)行訓(xùn)練,批量大小為 256,訓(xùn)練時(shí)間約為 4 天。為了提高計(jì)算效率,集成了 Flash-Attention-v2、梯度檢查點(diǎn) 和 BF16的混合精度訓(xùn)練。

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

視頻重建

實(shí)驗(yàn)協(xié)議  在 RealEstate10K 和 MiraData 數(shù)據(jù)集上隨機(jī)選擇了 50 個(gè)測(cè)試視頻片段(默認(rèn)長(zhǎng)度為 90 幀),通過(guò)標(biāo)準(zhǔn)重建質(zhì)量指標(biāo)(PSNR、SSIM 和 LPIPS)評(píng)估 NutWorld 的視頻重建性能。由于目前沒(méi)有其他基于動(dòng)態(tài)高斯的前饋方法,我們與基于優(yōu)化的方法進(jìn)行了比較,包括 Splatter-a-Video (SaV)、4DGS、RoDynRF 和 CoDeF,這些方法是最相關(guān)的基線。為了公平比較,所有方法都結(jié)合了受限的標(biāo)準(zhǔn)空間、深度和光流監(jiān)督。對(duì)于大多數(shù)方法,我們使用了官方實(shí)現(xiàn),而 SaV 是根據(jù)其論文中提供的實(shí)現(xiàn)細(xì)節(jié)重新實(shí)現(xiàn)的。


與基線方法的比較  通過(guò)定性和定量實(shí)驗(yàn)評(píng)估了 NutWorld 表示的有效性。在下圖4中可以看出,預(yù)訓(xùn)練的 NutWorld 能夠有效捕獲空間細(xì)節(jié)和時(shí)間動(dòng)態(tài),在重建質(zhì)量上優(yōu)于基于高斯的 SaV和基于 NeRF 的 CoDeF。這種優(yōu)越性能歸因于 STAG 精心設(shè)計(jì)的可變形場(chǎng)和位置約束,與 SaV 的傅里葉級(jí)數(shù)和 CoDeF 的二維標(biāo)準(zhǔn)表示相比,提供了更具表現(xiàn)力和更魯棒的時(shí)間建模能力。

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

如下表1所示,NutWorld 在重建質(zhì)量和計(jì)算效率方面實(shí)現(xiàn)了兩者的最佳平衡。值得注意的是,NutWorld 在僅 1.8 秒內(nèi)就完成了 90 幀視頻的重建,相比基于優(yōu)化的方法實(shí)現(xiàn)了 1000 倍的加速。通過(guò)基于分段的推理策略限制每段的高斯數(shù)量,NutWorld 達(dá)到了 450 FPS 的渲染速度,顯著超過(guò)了 SaV 的 149 FPS,而后者需要大約 個(gè)高斯來(lái)處理同一視頻。

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

視頻下游任務(wù)

經(jīng)過(guò)大規(guī)模預(yù)訓(xùn)練的 NutWorld 支持多種視頻應(yīng)用,包括目標(biāo)分割、幀插值、視頻編輯、新視角合成以及一致性的深度預(yù)測(cè)。在下圖5中展示了具有代表性的定性結(jié)果。

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

幀插值  通過(guò)校準(zhǔn)光流正則化學(xué)習(xí)到的 STAG 連續(xù)軌跡,NutWorld 能夠以任意 FPS 插值場(chǎng)景動(dòng)態(tài)。這些插值后的 STAG 具有平滑變化的動(dòng)態(tài)屬性,能夠支持中間幀的渲染,這種能力超出了逐幀方法的范圍。


一致性深度預(yù)測(cè)  校準(zhǔn)的深度正則化防止了深度坍縮,同時(shí)在場(chǎng)景幾何中保持了時(shí)間一致的空間配置。此外,NutWorld 展示了蒸餾其他圖像特征(如 SAM 和 CLIP)的潛力,我們認(rèn)為這是未來(lái)工作的一個(gè)有前途的方向。


視頻編輯  通過(guò)與 MLLM 指導(dǎo)的編輯模型集成,NutWorld 能夠通過(guò)優(yōu)化切片的 STAG 表示,實(shí)現(xiàn)精確的逐幀繪畫和風(fēng)格化。這些編輯在時(shí)間上可以傳播,同時(shí)保持視頻序列的視覺(jué)一致性。


新視角合成  通過(guò)結(jié)合深度先驗(yàn)以減輕空間歧義,NutWorld 在實(shí)際范圍內(nèi)實(shí)現(xiàn)了新視角合成。相機(jī)外參調(diào)整支持新視角渲染,而相機(jī)內(nèi)參調(diào)整則允許實(shí)現(xiàn)如推拉變焦(dolly zoom)等效果。

消融研究

通過(guò)對(duì)50個(gè)選定的視頻片段進(jìn)行消融研究,分析了NutWorld的設(shè)計(jì)選擇。如下表2所示,實(shí)驗(yàn)表明,從多組件流水線中移除任何一個(gè)組件都會(huì)導(dǎo)致顯著的性能下降。

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

關(guān)于流先驗(yàn)的消融實(shí)驗(yàn)。 為了評(píng)估流先驗(yàn)(Eq. 8),訓(xùn)練了一個(gè)沒(méi)有流監(jiān)督的NutWorld變體進(jìn)行對(duì)比。通過(guò)小提琴圖(如下圖 6(b))可視化了跨越幀的形變場(chǎng)的分布。在沒(méi)有流監(jiān)督的情況下,模型表現(xiàn)出較大的形變值且方差較低,導(dǎo)致STAGs在非參考幀中偏離了Eq. 2中定義的標(biāo)準(zhǔn)空間。這表明,沒(méi)有流監(jiān)督的變體傾向于通過(guò)將每一幀表示為獨(dú)立的STAGs來(lái)學(xué)習(xí)一種不理想的捷徑,進(jìn)而導(dǎo)致時(shí)間不連續(xù)性。相比之下,在有流監(jiān)督的情況下,形變場(chǎng)的分布集中在接近零的位置,且具有適當(dāng)?shù)姆讲?,這表明NutWorld能夠通過(guò)流先驗(yàn)恢復(fù)時(shí)間運(yùn)動(dòng),從而有效地防止這種捷徑行為。此外,上表2中的定量實(shí)驗(yàn)表明,時(shí)間不連續(xù)性會(huì)導(dǎo)致重建質(zhì)量下降,尤其是在處理復(fù)雜運(yùn)動(dòng)時(shí)表現(xiàn)尤為明顯。

1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

結(jié)論

本文提出了NutWorld,這是一種通過(guò)動(dòng)態(tài)高斯投影高效表示隨意單目視頻的新框架。通過(guò)引入結(jié)構(gòu)化的STAG表示并結(jié)合有效的深度和光流正則化,本文的方法成功解決了單目視頻表示中的多個(gè)基本挑戰(zhàn),在無(wú)需逐場(chǎng)景優(yōu)化的情況下實(shí)現(xiàn)了空間和時(shí)間的一致性。全面的實(shí)驗(yàn)表明,NutWorld不僅能夠?qū)崟r(shí)實(shí)現(xiàn)高保真的視頻重建,還支持多種下游應(yīng)用。在未來(lái),將豐富的視覺(jué)特征(例如,SAM、CLIP)蒸餾到STAG表示中,以及將表示范式適配于視頻生成任務(wù),都是值得探索的方向。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/KHXn9rOY8-2SNXzU3QRtbw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦