自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

VR絲滑全景指日可待?谷歌這個360° NeRF讓人看到未來

人工智能 新聞
谷歌研究科學家、論文一作 Jon Barron 表示,他們開發(fā)了一種名為 Mip-NeRF 360 的模型,該模型能夠生成無界場景的逼真渲染,給我們帶來了 360° 的逼真效果和漂亮的深度圖。

前段時間,CVPR 2022 公布了今年的論文接收結(jié)果,同時也意味著投稿的論文終于熬過了靜默期。不少作者都感嘆:終于可以在社交媒體上聊聊我們的論文了!

今天要介紹的論文來自谷歌研究院和哈佛大學。谷歌研究科學家、論文一作 Jon Barron 表示,他們開發(fā)了一種名為 Mip-NeRF 360 的模型,該模型能夠生成無界場景的逼真渲染,給我們帶來了 360° 的逼真效果和漂亮的深度圖。

下面是幾張效果圖:

這么好的效果什么時候能讓 VR 頭盔用上

作者回答說,「我們已經(jīng)可以在瀏覽器 (http://nerf.live) 或桌面 GPU (https://nvlabs.github.io/instant-ngp/) 上實時渲染 NeRF,所以把它放到 VR 頭盔上應(yīng)該是可行的?!?/span>

論文概覽

神經(jīng)輻射場 (NeRF) 通過在基于坐標的多層感知器 (MLP) 的權(quán)重內(nèi)編碼場景的體積密度和顏色,來合成高度逼真的場景渲染。這種方法在逼真的視圖合成方面取得了重大進展 [30]。然而,NeRF 使用 3D 點對 MLP 的輸入進行建模,這在渲染不同分辨率的視圖時會導(dǎo)致混疊。

基于這個問題,Mip-NeRF 擴展了 NeRF ,不再對沿錐體的體積截頭體進行推理 [3]。盡管這樣做提高了質(zhì)量,但 NeRF 和 mipNeRF 在處理無界場景時會遇到挑戰(zhàn),無界場景中的相機可能面向任何方向并且場景內(nèi)容可能位于任何位置。

在這篇論文中,研究者提出了對 mip-NeRF 的擴展 ——mip-NeRF 360,它能夠生成這些無界場景的逼真渲染(圖 1)。

將類似 NeRF 的模型應(yīng)用于大型無界場景會引發(fā)三個關(guān)鍵問題:

  • 參數(shù)化問題。mip-NeRF 要求將 3D 場景坐標映射到有界域,所以無界的 360 度的場景會占據(jù)無窮大的歐式空間區(qū)域。
  • 效率問題。巨大且細節(jié)化的場景需要巨大的網(wǎng)絡(luò)容量,所以在訓(xùn)練期間,頻繁地沿每條射線去查詢巨大的 MLP 網(wǎng)絡(luò)會產(chǎn)生巨大的消耗 。
  • 歧義問題。無界 360 度場景的背景區(qū)域明顯比中心區(qū)域的光線稀疏。這種現(xiàn)象加劇了從 2D 圖像重建 3D 內(nèi)容的固有模糊性。

基于上述問題,研究者提出了 mip-NeRF 的擴展模型,它使用非線性場景參數(shù)化、在線蒸餾和新穎的基于失真的正則化器來克服無界場景帶來的挑戰(zhàn)。新模型被稱為「mip-NeRF 360」,因為該研究針對的是相機圍繞一個點旋轉(zhuǎn) 360 度的場景,與 mip-NeRF 相比,均方誤差降低了 54%,并且能夠生成逼真的合成視圖和詳細的深度用于高度復(fù)雜、無界的現(xiàn)實世界場景的地圖。

  • 論文鏈接:https://arxiv.org/pdf/2111.12077.pdf
  • 視頻解讀:https://www.youtube.com/watch?v=zBSH-k9GbV4

技術(shù)細節(jié)

讓 mip-NeRF 在無界場景中正常工作存在三個主要問題,而本文的三個主要貢獻旨在解決這些問題。接下來,讓我們結(jié)合作者給出的解讀視頻來了解一下。

第一個問題是在表示方面,mip-NeRF 適用于有界坐標空間中,而非無界場景,研究者使用一種看起來很像是一種擴展版的卡爾曼濾波器將 mip-NeRF 的高斯函數(shù)扭曲到非歐式空間中。

第二個問題是,場景通常是細節(jié)化的,如果想將 mip-NeRF 用于無界場景,可以將網(wǎng)絡(luò)變得更大,但是這樣會讓訓(xùn)練速度變慢。所以,在優(yōu)化階段,研究者提出訓(xùn)練一個較小的 MLP 來限制空間大小,這可以讓訓(xùn)練速度變快三倍。

第三個問題是,在更大的場景下,3D 重建的結(jié)果會變得較為模糊,產(chǎn)生偽影。為了解決這個問題,研究者引入了一種新型正則化器,專門用于 mip-NeRF 中的射線間隔。

首先來談第一個問題,以一個有著三個攝像頭的平地場景為例,在 mip-NeRF 中,這些相機將高斯函數(shù)投射到場景中。在一個大的場景,這導(dǎo)致高斯函數(shù)逐漸遠離原點并且被拉長。這是因為 mip-NeRF 需要基于有界的坐標空間并且高斯函數(shù)在某種程度上是各向同性的。

為了解決這個問題,研究者定義了一個扭曲函數(shù),來平滑地將藍色圓(Unaffected Domain)外部的坐標映射到橙色圓(Contracted Domain)內(nèi)。扭曲函數(shù)旨在消除 mip-NeRF 中的高斯非線性間距的影響。

為了將這種扭曲應(yīng)用于 mip-NeRF 中的高斯函數(shù),研究者使用了一個擴展版的卡爾曼濾波器,這樣一來,沒有邊界的場景就可以被約束到橙色圓內(nèi),橙色圓內(nèi)是一個非歐式空間,其中的坐標就是 MLP 的輸入。

為了能理解論文中的在線蒸餾模型,我們首先需要介紹 mip-NeRF 是如何訓(xùn)練以及采樣的。在 mip-NeRF 中,首先需要定義一組大致均勻分布的區(qū)間,可以理解為直方圖中的端點。如圖所示,每個間隔的高斯都被送入 mlp,并且得到直方圖權(quán)重 w^c 和顏色 c^c。然后將這些顏色加權(quán)后得到像素點的顏色 C^c。之后這些權(quán)重被重采樣,并得到一組新的區(qū)間,并且在場景中有內(nèi)容的地方,端點就會較為聚集。

這個重采樣可以多次進行,但為了方便在這里只顯示一個。這個新的區(qū)間中的數(shù)據(jù)被送入同一 MLP 來得到一組新的權(quán)重和顏色,然后再通過加權(quán)得到像素點的顏色 C^f。mip-NeRF 只是最小化所有渲染像素值和輸入圖像真實像素值之間的重構(gòu)損失。只有精細的顏色被用來渲染最終的圖像是非常浪費的。

粗略渲染需要有監(jiān)督學習來完成的唯一原因是幫助指導(dǎo)精細直方圖的采樣,這一觀察激發(fā)了文中模型的訓(xùn)練和采樣過程。研究者從一組均勻分布的直方圖開始,將它們送入提出的 MLP 以產(chǎn)生一組權(quán)重,但不產(chǎn)生顏色。

這些權(quán)重會被重新采樣,同樣這個過程可以重復(fù)多次,但他們在視頻中只展示了一個重采用過程。他們提出的 mlp 產(chǎn)生的最后一組區(qū)間被送入另一個 mlp,該 mlp 的行為與 mip-NeRF 中的完全相同,他們將其稱為 NeRF mlp。NeRF mlp 為他們提供了一組可以用于渲染像素顏色的權(quán)重和顏色。

研究者將通過監(jiān)督學習的方式,使得像素渲染得到的顏色接近真實圖片中的顏色。他們讓監(jiān)督輸出權(quán)重與 NeRF mlp 的輸出權(quán)重一致,而不是監(jiān)督文中提出的 mlp 來重建圖像。這種設(shè)置意味著只需要經(jīng)常去訪問一個較小的 mlp,而較大的 NeRF mlp 則不需要太多的訪問次數(shù)。

為了使模型起效,他們需要一個損失函數(shù)來鼓勵具有不同區(qū)間劃分的直方圖彼此一致。為了說明這一點,如上圖所示,他們在左側(cè)構(gòu)建了一個真實的一維分布,在右側(cè)的是兩個該真實分布的直方圖。

因為這兩個直方圖刻畫同一個分布,研究者可以對它們之間的關(guān)系做出一些強有力的斷言,例如上面突出顯示的那個區(qū)間的權(quán)重一定不會超過在下面的直方圖中與其重疊的區(qū)間權(quán)重的總和?;谶@個事實,他們可以使用一個直方圖的權(quán)重來構(gòu)造另一個直方圖權(quán)重的上限。

再一次聲明,如果這兩個直方圖同時刻畫相同的真實分布的,上界是必須確定的。

因此,在訓(xùn)練期間,研究者對他們提出的 mlp 和 NeRF mlp 分別生成的直方圖之間構(gòu)造了損失,該損失會懲罰任何違反此處以紅色顯示的邊界的多余部分。通過這樣方式,來鼓勵他們提出的 mlp 學習什么是有效的上界。

基于 nerf mlp 學習的體積場景密度,新模型中用來解決歧義問題的組件是光線直方圖上的簡單正則化器,他們簡單地最小化沿光線的所有點之間的加權(quán)絕對距離,來鼓勵每個直方圖盡可能接近 delta 函數(shù)。這里顯示的這個二重積分不容易計算,但可以推導(dǎo)出一個很好的封閉形式,計算起來很簡單。

實驗結(jié)果

表 1 展示了數(shù)據(jù)集中測試圖像的平均 PSNR、SSIM [46] 和 LPIPS [49]。從中可以看出,本文提出的模型大大優(yōu)于所有先前的類似 NeRF 的模型,并且可以看到相對于 mip-NeRF ,均方誤差減少了 54%,而訓(xùn)練時間僅為 1.92 倍。

在表 2 中,研究者對模型在自行車場景中進行了消融研究,并在此總結(jié)了研究結(jié)果。

A) 移除 L_prop 會導(dǎo)致災(zāi)難性的失敗,因為 MLP 完全不受監(jiān)督。

B) 移除 L_dist 通過引入偽影降低圖像質(zhì)量(參見圖 5)。

C) Mildenhall 等人提出的正則化器 [30] 將高斯噪聲 (σ = 1) 注入密度當中,但效果不如我們的正則化器。

D) 移除研究者提出的 MLP 并使用單個 MLP 對場景和權(quán)重進行建模不會降低性能,但會比他們提出的 MLP 增加約為 2 倍的訓(xùn)練時間。

E) 刪除 MLP 并使用 mip-NeRF 的方法訓(xùn)練本文提出的模型(在所有粗略尺度上應(yīng)用 L_recon 而不是 L_prop)會降低速度和準確性,這證明研究者使用的監(jiān)督策略是合理的。

F) 使用小型 NeRF MLP(256 個隱藏單元而不是 1024 個隱藏單元)加速了訓(xùn)練,但降低了質(zhì)量,這展示了大容量 MLP 在建模詳細場景時的價值。

G) 完全移除 IPE 并使用 NeRF 的位置編碼 [30] 會降低性能,顯示了基于 mip-NeRF 而不是 NeRF 的價值。

H) 消除收縮并增加位置編碼頻率來限制場景會降低準確性和速度。

I) 使用 DONeRF [31] 中提出的參數(shù)化和對數(shù)射線間距會降低精度。

J) 盡管使用 NeRF++ [48] 中提出的雙 MLP 參數(shù)化可以優(yōu)于本文中的技術(shù) —— 但代價是訓(xùn)練時間加倍,因為 MLP 的驗證時間加倍(為了保持恒定的模型容量,研究者將兩個 MLP 的隱藏單元數(shù)除以 √2)。

更多細節(jié)請參考原論文。

責任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2024-02-27 18:59:55

ReactRSDWeb

2009-04-26 15:02:17

安全web

2021-02-05 07:11:23

科技VRVR+5G

2024-03-25 00:20:00

AI短視頻

2015-09-25 14:44:42

微信支付

2020-10-22 15:01:22

大數(shù)據(jù)互聯(lián)網(wǎng)醫(yī)療

2021-09-22 10:13:33

云計算安全技術(shù)

2014-07-25 11:57:28

互聯(lián)網(wǎng)廣告價值

2020-09-29 21:26:49

自動駕駛無人駕駛人工智能

2010-02-24 13:45:45

FlexRIA

2012-04-20 13:02:09

iOS

2011-11-18 10:12:04

云計算虛擬化云桌面

2009-02-19 09:49:21

AMD分拆制造業(yè)務(wù)

2020-06-08 19:21:00

GitHub工具 網(wǎng)頁

2018-12-28 13:56:35

技術(shù)量子人工智能

2019-03-25 22:04:19

編程PythonJava

2015-11-27 11:03:05

Windows10Windows 7用戶量

2020-11-13 10:10:48

5G網(wǎng)絡(luò)技術(shù)

2015-03-05 14:14:46

3D指紋掃描、密碼

2011-07-12 10:34:48

WatsonARM架構(gòu)RISC架構(gòu)
點贊
收藏

51CTO技術(shù)棧公眾號