自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR 2024 滿分論文 | Deformable 3D Gaussian:基于可變形3D高斯的高質(zhì)量單目動(dòng)態(tài)重建新方法

云計(jì)算
單目動(dòng)態(tài)場(chǎng)景(Monocular Dynamic Scene)是指使用單眼攝像頭觀察并分析的動(dòng)態(tài)環(huán)境,其中場(chǎng)景中的物體可以自由移動(dòng)。單目動(dòng)態(tài)場(chǎng)景重建對(duì)于理解環(huán)境中的動(dòng)態(tài)變化、預(yù)測(cè)物體運(yùn)動(dòng)軌跡以及動(dòng)態(tài)數(shù)字資產(chǎn)生成等任務(wù)至關(guān)重要。

項(xiàng)目主頁:https://ingra14m.github.io/Deformable-Gaussians/

論文鏈接:https://arxiv.org/abs/2309.13101

代碼:https://github.com/ingra14m/Deformable-3D-Gaussians

單目動(dòng)態(tài)場(chǎng)景(Monocular Dynamic Scene)是指使用單眼攝像頭觀察并分析的動(dòng)態(tài)環(huán)境,其中場(chǎng)景中的物體可以自由移動(dòng)。單目動(dòng)態(tài)場(chǎng)景重建對(duì)于理解環(huán)境中的動(dòng)態(tài)變化、預(yù)測(cè)物體運(yùn)動(dòng)軌跡以及動(dòng)態(tài)數(shù)字資產(chǎn)生成等任務(wù)至關(guān)重要。

隨著以神經(jīng)輻射場(chǎng)(Neural Radiance Field, NeRF)為代表的神經(jīng)渲染的興起,越來越多的工作開始使用隱式表示(implicit representation)進(jìn)行動(dòng)態(tài)場(chǎng)景的三維重建。盡管基于NeRF的一些代表工作,如D-NeRF,Nerfies,K-planes等已經(jīng)取得了令人滿意的渲染質(zhì)量,他們?nèi)匀痪嚯x真正的照片級(jí)真實(shí)渲染(photo-realistic rendering)存在一定的距離。我們認(rèn)為,其根本原因在于基于光線投射(ray casting)的NeRF管線通過逆向映射(backward-flow)將觀測(cè)空間(observation space)映射到規(guī)范空間(canonical space)無法實(shí)現(xiàn)準(zhǔn)確且干凈的映射。逆向映射并不利于可學(xué)習(xí)結(jié)構(gòu)的收斂,使得目前的方法在D-NeRF數(shù)據(jù)集上只能取得30+級(jí)別的PSNR渲染指標(biāo)。

為了解決這一問題,我們提出了一種基于光柵化(rasterization)的單目動(dòng)態(tài)場(chǎng)景建模管線,首次將變形場(chǎng)(Deformation Field)與3D高斯(3D Gaussian Splatting)結(jié)合實(shí)現(xiàn)了高質(zhì)量的重建與新視角渲染。實(shí)驗(yàn)結(jié)果表明,變形場(chǎng)可以準(zhǔn)確地將規(guī)范空間下的3D高斯前向映射(forward-flow)到觀測(cè)空間,不僅在D-NeRF數(shù)據(jù)集上實(shí)現(xiàn)了10+的PSNR提高,而且在相機(jī)位姿不準(zhǔn)確的真實(shí)場(chǎng)景也取得了渲染細(xì)節(jié)上的增加。

圖片

HyperNeRF真實(shí)場(chǎng)景的實(shí)驗(yàn)結(jié)果

該研究的論文《Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction》已被計(jì)算機(jī)視覺頂級(jí)國際學(xué)術(shù)會(huì)議 CVPR 2024接收。值得一提的是,該論文是首個(gè)使用變形場(chǎng)將3D高斯拓展到單目動(dòng)態(tài)場(chǎng)景的工作,并且在公開數(shù)據(jù)集上取得了SOTA結(jié)果

相關(guān)工作

動(dòng)態(tài)場(chǎng)景重建一直以來是三維重建的熱點(diǎn)問題。隨著以NeRF為代表的神經(jīng)渲染實(shí)現(xiàn)了高質(zhì)量的渲染,動(dòng)態(tài)重建領(lǐng)域涌現(xiàn)出了一系列以隱式表示作為基礎(chǔ)的工作。D-NeRF和Nerfies在NeRF光線投射管線的基礎(chǔ)上引入了變形場(chǎng),實(shí)現(xiàn)了魯棒的動(dòng)態(tài)場(chǎng)景重建。TiNeuVox,K-Planes和Hexplanes在此基礎(chǔ)上引入了網(wǎng)格結(jié)構(gòu),大大加速了模型的訓(xùn)練過程,渲染速度有一定的提高。然而這些方法都基于逆向映射,無法真正實(shí)現(xiàn)高質(zhì)量的規(guī)范空間和變形場(chǎng)的解耦。

3D高斯?jié)姙R是一種基于光柵化的點(diǎn)云渲染管線。其CUDA定制的可微高斯光柵化管線和創(chuàng)新的致密化使得3D高斯不僅實(shí)現(xiàn)了SOTA的渲染質(zhì)量,還實(shí)現(xiàn)了實(shí)時(shí)渲染。Dynamic 3D高斯首先將靜態(tài)的3D高斯拓展到了動(dòng)態(tài)領(lǐng)域。然而,其只能處理多目場(chǎng)景非常嚴(yán)重地制約了其應(yīng)用于更通用的情況,如手機(jī)拍攝等單目場(chǎng)景。

研究思想

Deformable-GS的核心在于將靜態(tài)的3D高斯拓展到單目動(dòng)態(tài)場(chǎng)景。每一個(gè)3D高斯攜帶位置,旋轉(zhuǎn),縮放,不透明度和SH系數(shù)用于圖像層級(jí)的渲染。根據(jù)3D高斯alpha-blend的公式我們不難發(fā)現(xiàn),隨時(shí)間變化的位置,以及控制高斯形狀的旋轉(zhuǎn)和縮放是決定動(dòng)態(tài)3D高斯的決定性參數(shù)。然而,不同于傳統(tǒng)的基于點(diǎn)云的渲染方法,3D高斯在初始化之后,位置,透明度等參數(shù)會(huì)隨著優(yōu)化不斷更新。這給動(dòng)態(tài)高斯的學(xué)習(xí)增加了難度。

在本次研究中,我們創(chuàng)新性地提出了變形場(chǎng)與3D高斯聯(lián)合優(yōu)化的動(dòng)態(tài)場(chǎng)景渲染框架。我們將COLMAP或隨機(jī)點(diǎn)云初始化的3D高斯視作規(guī)范空間,隨后通過變形場(chǎng),以規(guī)范空間中3D高斯的坐標(biāo)信息作為輸入,預(yù)測(cè)每一個(gè)3D高斯隨時(shí)間變化的位置和形狀參數(shù)。利用變形場(chǎng),我們可以將規(guī)范空間的3D高斯變換到觀測(cè)空間用于光柵化渲染。這一策略并不會(huì)影響3D高斯的可微光柵化管線,經(jīng)過其計(jì)算得到的梯度可以用于更新規(guī)范空間3D高斯的參數(shù)。此外,引入變形場(chǎng)有利于動(dòng)作幅度較大部分的高斯致密化。這是因?yàn)閯?dòng)作幅度較大的區(qū)域變形場(chǎng)的梯度也會(huì)相對(duì)較高,從而指導(dǎo)相應(yīng)區(qū)域在致密化的過程中得到更精細(xì)的調(diào)控。即使規(guī)范空間3D高斯的數(shù)量和位置參數(shù)在初期也在不斷更新,但實(shí)驗(yàn)結(jié)果表明,這種聯(lián)合優(yōu)化的策略可以最終得到魯棒的收斂結(jié)果。大約經(jīng)過20000輪迭代,規(guī)范空間的3D高斯的位置參數(shù)幾乎不再變化。

在真實(shí)場(chǎng)景中,我們發(fā)現(xiàn)真實(shí)場(chǎng)景的相機(jī)位姿往往不夠準(zhǔn)確,而動(dòng)態(tài)場(chǎng)景更加劇了這一問題。這對(duì)于基于神經(jīng)輻射場(chǎng)的結(jié)構(gòu)來說并不會(huì)產(chǎn)生較大的影響,因?yàn)樯窠?jīng)輻射場(chǎng)基于多層感知機(jī)(MLP),是一個(gè)非常平滑的結(jié)構(gòu)。但是3D高斯是基于點(diǎn)云的顯式結(jié)構(gòu),略微不準(zhǔn)確的相機(jī)位姿很難通過高斯?jié)姙R得到較為魯棒地矯正。因此為了緩解這個(gè)問題,我們創(chuàng)新地引入了退火平滑訓(xùn)練(Annealing Smooth Training,AST)。該訓(xùn)練機(jī)制旨在初期平滑3D高斯的學(xué)習(xí),在后期增加渲染的細(xì)節(jié)。這一機(jī)制的引入不僅提高了渲染的質(zhì)量,而且大幅度提高了時(shí)間插值任務(wù)的穩(wěn)定性與平滑性。

圖2展示了該研究的流程圖,詳情請(qǐng)參見論文原文。

圖片

流程圖

結(jié)果展示

該研究首先在動(dòng)態(tài)重建領(lǐng)域被廣泛使用的D-NeRF數(shù)據(jù)集上進(jìn)行了合成數(shù)據(jù)集的實(shí)驗(yàn)。從圖3的可視化結(jié)果中不難看出,Deformable-GS相比于之前的方法有著非常巨大的渲染質(zhì)量提升。

圖片圖片

該研究在D-NeRF數(shù)據(jù)集上的定性實(shí)驗(yàn)對(duì)比結(jié)果

我們方法不僅在視覺效果上取得了大幅度的提高,定量的渲染指標(biāo)上也有著對(duì)應(yīng)的支持。值得注意的是,我們發(fā)現(xiàn)D-NeRF數(shù)據(jù)集的Lego場(chǎng)景存在錯(cuò)誤,即訓(xùn)練集和測(cè)試集的場(chǎng)景具有微小的差別。這體現(xiàn)在Lego模型鏟子的翻轉(zhuǎn)角度不一致。這也是為什么之前方法在Lego場(chǎng)景的指標(biāo)無法提高的根本原因。為了實(shí)現(xiàn)有意義的比較,我們使用了Lego的驗(yàn)證集作為我們指標(biāo)測(cè)量的基準(zhǔn)。

圖片

方法對(duì)比

我們?cè)谌直媛剩?00x800)下對(duì)比了SOTA方法,其中包括了CVPR 2020的D-NeRF,Sig Asia 2022的TiNeuVox和CVPR2023的Tensor4D,K-planes。我們的方法在各個(gè)渲染指標(biāo)(PSNR、SSIM、LPIPS),各個(gè)場(chǎng)景下都取得了大幅度的提高。

我們的方法不僅能夠適用于合成場(chǎng)景,在相機(jī)位姿不夠準(zhǔn)確的真實(shí)場(chǎng)景也取得了SOTA結(jié)果。如圖5所示,我們?cè)贜eRF-DS數(shù)據(jù)集上與SOTA方法進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果表明,即使我們的方法沒有對(duì)高光反射表面進(jìn)行特殊處理,我們依舊能夠超過專為高光反射場(chǎng)景設(shè)計(jì)的NeRF-DS,取得了最佳的渲染效果。

圖片

真實(shí)場(chǎng)景方法對(duì)比

雖然MLP的引入增加了渲染開銷,但是得益于3D高斯極其高效的CUDA實(shí)現(xiàn)與我們緊湊的MLP結(jié)構(gòu),我們依舊能夠做到實(shí)時(shí)渲染。在3090上D-NeRF數(shù)據(jù)集的平均FPS可以達(dá)到85(400x400),68(800x800)。

此外,該研究還首次應(yīng)用了帶有前向與反向深度傳播的可微高斯光柵化管線。如圖6所示,該深度也證明了Deformable-GS也可以得到魯棒的幾何表示。深度的反向傳播可以推動(dòng)日后很多需要使用深度監(jiān)督的任務(wù),例如逆向渲染(Inverse Rendering),SLAM與自動(dòng)駕駛等。

圖片

深度可視化

火山引擎多媒體實(shí)驗(yàn)室簡介

火山引擎多媒體實(shí)驗(yàn)室是字節(jié)跳動(dòng)旗下的研究團(tuán)隊(duì),致力于探索多媒體領(lǐng)域的前沿技術(shù),參與國際標(biāo)準(zhǔn)化工作,其眾多創(chuàng)新算法及軟硬件解決方案已經(jīng)廣泛應(yīng)用在抖音、西瓜視頻等產(chǎn)品的多媒體業(yè)務(wù),并向火山引擎的企業(yè)級(jí)客戶提供技術(shù)服務(wù)。實(shí)驗(yàn)室成立以來,多篇論文入選國際頂會(huì)和旗艦期刊,并獲得數(shù)項(xiàng)國際級(jí)技術(shù)賽事冠軍、行業(yè)創(chuàng)新獎(jiǎng)及最佳論文獎(jiǎng)。

火山引擎是字節(jié)跳動(dòng)旗下的云服務(wù)平臺(tái),將字節(jié)跳動(dòng)快速發(fā)展過程中積累的增長方法、技術(shù)能力和工具開放給外部企業(yè),提供云基礎(chǔ)、視頻與內(nèi)容分發(fā)、大數(shù)據(jù)、人工智能、開發(fā)與運(yùn)維等服務(wù),幫助企業(yè)在數(shù)字化升級(jí)中實(shí)現(xiàn)持續(xù)增長。

責(zé)任編輯:龐桂玉 來源: 字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)
相關(guān)推薦

2024-01-11 09:55:00

AI訓(xùn)練

2023-12-10 15:17:59

開源模型3D

2025-01-07 13:19:48

模型AI訓(xùn)練

2024-12-23 15:46:59

2024-05-16 09:24:17

3D技術(shù)

2025-01-14 09:24:46

2024-01-18 12:37:31

SOTA3D方法

2017-07-24 08:53:12

CVPR 2017論文單目圖像車輛

2025-01-26 10:19:21

2024-02-20 13:44:00

AI數(shù)據(jù)

2025-01-10 14:00:00

3D模型生成

2023-12-07 10:37:55

3D框架AI

2023-05-29 10:39:00

AI算法

2023-05-09 09:35:22

2024-01-29 06:50:00

3D模型

2025-01-22 11:00:00

2025-01-09 12:32:18

2023-08-21 10:57:17

3D模型

2022-09-13 15:19:48

3D網(wǎng)絡(luò)

2025-03-31 08:52:00

AI模型研究
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)