不止3D高斯!最新綜述一覽最先進(jìn)的3D重建技術(shù)
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
寫在前面&筆者的個人理解
基于圖像的3D重建是一項(xiàng)具有挑戰(zhàn)性的任務(wù),涉及從一組輸入圖像推斷目標(biāo)或場景的3D形狀?;趯W(xué)習(xí)的方法因其直接估計(jì)3D形狀的能力而受到關(guān)注。這篇綜述論文的重點(diǎn)是最先進(jìn)的3D重建技術(shù),包括生成新穎的、看不見的視圖。概述了高斯飛濺方法的最新發(fā)展,包括輸入類型、模型結(jié)構(gòu)、輸出表示和訓(xùn)練策略。還討論了尚未解決的挑戰(zhàn)和未來的方向。鑒于該領(lǐng)域的快速進(jìn)展以及增強(qiáng)3D重建方法的眾多機(jī)會,對算法進(jìn)行全面檢查似乎至關(guān)重要。因此,本研究對高斯散射的最新進(jìn)展進(jìn)行了全面的概述。
(大拇指往上滑,點(diǎn)擊最上方的卡片關(guān)注我,整個操作只會花你 1.328 秒,然后帶走未來、所有、免費(fèi)的干貨,萬一有內(nèi)容對您有幫助呢~)
三維重建與新視圖合成入門
3D重建和NVS是計(jì)算機(jī)圖形學(xué)中兩個密切相關(guān)的領(lǐng)域,旨在捕捉和渲染物理場景的逼真3D表示。3D重建涉及從通常從不同視點(diǎn)捕獲的一系列2D圖像中提取幾何和外觀信息。盡管有許多用于3D掃描的技術(shù),但這種對不同2D圖像的捕捉是收集關(guān)于3D環(huán)境的信息的非常簡單且計(jì)算成本低廉的方式。然后,這些信息可以用于創(chuàng)建場景的3D模型,該3D模型可以用于各種目的,例如虛擬現(xiàn)實(shí)(VR)應(yīng)用、增強(qiáng)現(xiàn)實(shí)(AR)覆蓋或計(jì)算機(jī)輔助設(shè)計(jì)(CAD)建模。
另一方面,NVS專注于從先前獲取的3D模型生成場景的新2D視圖。這允許從任何期望的視點(diǎn)創(chuàng)建場景的逼真圖像,即使原始圖像不是從那個角度拍攝的。深度學(xué)習(xí)的最新進(jìn)展導(dǎo)致了3D重建和NVS的顯著改進(jìn)。深度學(xué)習(xí)模型可用于有效地從圖像中提取3D幾何結(jié)構(gòu)和外觀,此類模型也可用于從3D模型中生成逼真的新穎視圖。因此,這些技術(shù)在各種應(yīng)用中越來越受歡迎,預(yù)計(jì)它們在未來將發(fā)揮更重要的作用。
本節(jié)將介紹如何存儲或表示3D數(shù)據(jù),然后介紹用于該任務(wù)的最常用的公開數(shù)據(jù)集,然后將擴(kuò)展各種算法,主要關(guān)注高斯飛濺。
3D數(shù)據(jù)表示
三維數(shù)據(jù)的復(fù)雜空間性質(zhì),包括體積維度,提供了目標(biāo)和環(huán)境的詳細(xì)表示。這對于在各個研究領(lǐng)域創(chuàng)建沉浸式模擬和精確模型至關(guān)重要。三維數(shù)據(jù)的多維結(jié)構(gòu)允許結(jié)合深度、寬度和高度,從而在建筑設(shè)計(jì)和醫(yī)學(xué)成像技術(shù)等學(xué)科中取得重大進(jìn)步。
數(shù)據(jù)表示的選擇在眾多3D深度學(xué)習(xí)系統(tǒng)的設(shè)計(jì)中起著至關(guān)重要的作用。點(diǎn)云缺乏網(wǎng)格狀結(jié)構(gòu),通常不能直接進(jìn)行卷積。另一方面,以網(wǎng)格狀結(jié)構(gòu)為特征的體素表示通常會產(chǎn)生高的計(jì)算內(nèi)存需求。
3D表示的演變伴隨著3D數(shù)據(jù)或模型的存儲方式。最常用的3D數(shù)據(jù)表示可以分為傳統(tǒng)方法和新穎方法。
Traditional Approaches:
- Point cloud
- Mesh
- Voxel
Novel Approaches:
- Neural Network/Multi layer perceptron (MLP)
- Gaussian Splats
數(shù)據(jù)集
三維重建與NVS技術(shù)
為了評估該領(lǐng)域的當(dāng)前進(jìn)展,進(jìn)行了一項(xiàng)文獻(xiàn)研究,確定并仔細(xì)審查了相關(guān)的學(xué)術(shù)著作。分析特別集中在兩個關(guān)鍵領(lǐng)域:三維重建和NVS。從多個相機(jī)圖像進(jìn)行3D體積重建的發(fā)展跨越了幾十年,在計(jì)算機(jī)圖形學(xué)、機(jī)器人和醫(yī)學(xué)成像中有著不同的應(yīng)用。下一部分將探討該技術(shù)的現(xiàn)狀。
攝影測量:自20世紀(jì)80年代以來,出現(xiàn)了先進(jìn)的攝影測量和立體視覺技術(shù),自動識別立體圖像對中的對應(yīng)點(diǎn)。攝影測量是一種將攝影和計(jì)算機(jī)視覺相結(jié)合來生成物體或場景的3D模型的方法。它需要從各種角度捕捉圖像,利用Agisoft Metashape等軟件來估計(jì)相機(jī)位置并生成點(diǎn)云。該點(diǎn)云隨后被轉(zhuǎn)換為有紋理的3D網(wǎng)格,從而能夠創(chuàng)建重建目標(biāo)或場景的詳細(xì)和照片級真實(shí)感可視化。
Structure from motion:在20世紀(jì)90年代,SFM技術(shù)獲得了突出地位,能夠從2D圖像序列中重建3D結(jié)構(gòu)和相機(jī)運(yùn)動。SFM是從一組2D圖像中估計(jì)場景的3D結(jié)構(gòu)的過程。SFM需要圖像之間的點(diǎn)相關(guān)性。通過匹配特征或跟蹤多個圖像中的點(diǎn)來找到對應(yīng)的點(diǎn),并進(jìn)行三角測量以找到3D位置。
深度學(xué)習(xí):近年來,深度學(xué)習(xí)技術(shù),特別是卷積神經(jīng)網(wǎng)絡(luò)(CNNs)得到了融合?;谏疃葘W(xué)習(xí)的方法在三維重建中加快了步伐。最值得注意的是3D占用網(wǎng)絡(luò),這是一種為3D場景理解和重建而設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)架構(gòu)。它通過將3D空間劃分為小的體積單元或體素來操作,每個體素表示它是包含目標(biāo)還是為空空間。這些網(wǎng)絡(luò)使用深度學(xué)習(xí)技術(shù),如3D卷積神經(jīng)網(wǎng)絡(luò),來預(yù)測體素占用率,使其對機(jī)器人、自動駕駛汽車、增強(qiáng)現(xiàn)實(shí)和3D場景重建等應(yīng)用具有價(jià)值。這些網(wǎng)絡(luò)在很大程度上依賴于卷積和變換器。它們對于避免碰撞、路徑規(guī)劃和與物理世界的實(shí)時交互等任務(wù)至關(guān)重要。此外,3D占用網(wǎng)絡(luò)可以估計(jì)不確定性,但在處理動態(tài)或復(fù)雜場景時可能存在計(jì)算限制。神經(jīng)網(wǎng)絡(luò)架構(gòu)的進(jìn)步不斷提高其準(zhǔn)確性和效率。
神經(jīng)輻射場:NeRF于2020年推出,它將神經(jīng)網(wǎng)絡(luò)與經(jīng)典的三維重建原理相結(jié)合,在計(jì)算機(jī)視覺和圖形學(xué)中引起了顯著關(guān)注。它通過建模體積函數(shù)、通過神經(jīng)網(wǎng)絡(luò)預(yù)測顏色和密度來重建詳細(xì)的3D場景。NeRFs在計(jì)算機(jī)圖形學(xué)和虛擬現(xiàn)實(shí)中得到了廣泛應(yīng)用。最近,NeRF通過廣泛的研究提高了準(zhǔn)確性和效率。最近的研究還探討了NeRF在水下場景中的適用性。雖然提供3D場景幾何的魯棒表示,但計(jì)算需求等挑戰(zhàn)仍然存在。未來的NeRF研究需要專注于可解釋性、實(shí)時渲染、新穎的應(yīng)用程序和可擴(kuò)展性,為虛擬現(xiàn)實(shí)、游戲和機(jī)器人技術(shù)開辟道路。
高斯散射:最后,在2023年,3D高斯散射作為一種新的實(shí)時3D渲染技術(shù)出現(xiàn)了。在下一節(jié)中,將詳細(xì)討論這種方法。
GAUSSIAN SPLATTING的基礎(chǔ)
高斯飛濺使用許多3D高斯或粒子來描繪3D場景,每個高斯或粒子都配有位置、方向、比例、不透明度和顏色信息。若要渲染這些粒子,請將其轉(zhuǎn)換為二維空間,并對其進(jìn)行戰(zhàn)略性組織以實(shí)現(xiàn)最佳渲染。
圖4顯示了高斯飛濺算法的體系結(jié)構(gòu)。在原始算法中,采取了以下步驟:
- Structure from motion
- Convert to gaussian splats
- Training
- Differentiable Gaussian rasterization
STATE OF ART
在接下來的兩節(jié)中,將探索高斯飛濺的各種應(yīng)用和進(jìn)步,深入研究其在自動駕駛、化身、壓縮、擴(kuò)散、動力學(xué)和變形、編輯、基于文本的生成、網(wǎng)格提取和物理、正則化和優(yōu)化、渲染、稀疏表示以及同時定位和映射(SLAM)等領(lǐng)域的不同實(shí)現(xiàn)。將對每個子類別進(jìn)行檢查,以深入了解高斯飛濺方法在應(yīng)對特定挑戰(zhàn)和在這些不同領(lǐng)域取得顯著進(jìn)展方面的多用途。圖5顯示了所有方法的完整列表。
FUNCTIONAL ADVANCEMENTS
本節(jié)考察了自首次引入高斯飛濺算法以來在功能能力方面取得的進(jìn)展。
動態(tài)及變形
與一般的高斯飛濺相比,其中3D協(xié)方差矩陣的所有參數(shù)僅取決于輸入圖像,在這種情況下,為了捕捉飛濺隨時間的動態(tài),一些參數(shù)取決于時間或時間步長。例如,位置取決于時間步長或幀。該位置可以由下一幀以時間一致的方式更新。還可以學(xué)習(xí)一些潛在的編碼,這些編碼可以用于在渲染期間的每個時間步長中編輯或傳播高斯,以實(shí)現(xiàn)某些效果,如化身中的表情變化,以及向非剛體施加力。圖6顯示了一些基于動力學(xué)和變形的方法。
動態(tài)和可變形模型可以很容易地通過對原始高斯飛濺表示的輕微修改來表示:
Motion and Tracking
大多數(shù)與動態(tài)高斯飛濺相關(guān)的工作都擴(kuò)展到跨時間步長的3D高斯運(yùn)動跟蹤,而不是每個時間步長都有一個單獨(dú)的飛濺。Katsumata等人提出了位置的傅立葉近似和旋轉(zhuǎn)四元數(shù)的線性近似。
Luiten等人的論文介紹了一種在動態(tài)場景中捕獲所有3D點(diǎn)的全6個自由度的方法。通過結(jié)合局部剛度約束,動態(tài)3D高斯表示一致的空間旋轉(zhuǎn),實(shí)現(xiàn)了密集的6自由度跟蹤和重建,而無需對應(yīng)或流輸入。該方法在2D跟蹤中優(yōu)于PIP,實(shí)現(xiàn)了10倍低的中值軌跡誤差、更高的軌跡精度和100%的生存率。這種通用的表示方式有助于4維視頻編輯、第一人稱視圖合成和動態(tài)場景生成等應(yīng)用。
Lin等人介紹了一種新的雙域變形模型(DDDM),該模型被明確設(shè)計(jì)為對每個高斯點(diǎn)的屬性變形進(jìn)行建模。該模型使用頻域的傅立葉級數(shù)擬合和時域的多項(xiàng)式擬合來捕獲與時間相關(guān)的殘差。DDDM擅長處理復(fù)雜視頻場景中的變形,無需為每幀訓(xùn)練單獨(dú)的3D高斯飛濺(3D-GS)模型。值得注意的是,離散高斯點(diǎn)顯式變形建模保證了快速訓(xùn)練和4D場景渲染,類似于用于靜態(tài)3D重建的原始3D-GS。這種方法具有顯著的效率提高,與3D-GS建模相比,訓(xùn)練速度幾乎快了5倍。然而,在最終渲染中,在保持高保真度薄結(jié)構(gòu)方面存在增強(qiáng)的機(jī)會。
Expression or Emotion variation and Editable in Avatars
Shao等人介紹了GaussianPlanes,這是一種通過在三維空間和時間中基于平面的分解實(shí)現(xiàn)的4D表示,提高了4D編輯的有效性。此外,Control4D利用4D生成器優(yōu)化不一致照片的連續(xù)創(chuàng)建空間,從而獲得更好的一致性和質(zhì)量。所提出的方法使用GaussianPlanes來訓(xùn)練4D肖像場景的隱式表示,然后使用高斯渲染將其渲染為潛在特征和RGB圖像。基于生成對抗性網(wǎng)絡(luò)(GAN)的生成器和基于2D擴(kuò)散的編輯器對數(shù)據(jù)集進(jìn)行細(xì)化,并生成真實(shí)和虛假圖像進(jìn)行區(qū)分。判別結(jié)果有助于生成器和鑒別器的迭代更新。然而,由于依賴于具有流量表示的規(guī)范高斯點(diǎn)云,該方法在處理快速和廣泛的非剛性運(yùn)動方面面臨挑戰(zhàn)。該方法受ControlNet的約束,將編輯限制在粗略級別,并阻止精確的表達(dá)或動作編輯。此外,編輯過程需要迭代優(yōu)化,缺少一個單一步驟的解決方案。
Non-Rigid or deformable objects
隱式神經(jīng)表示在動態(tài)場景重建和渲染中帶來了重大變革。然而,當(dāng)代動態(tài)神經(jīng)渲染方法在捕捉復(fù)雜細(xì)節(jié)和實(shí)現(xiàn)動態(tài)場景實(shí)時渲染方面遇到了挑戰(zhàn)。
為了應(yīng)對這些挑戰(zhàn),Yang等人提出了用于高保真單目動態(tài)場景重建的可變形3D高斯。提出了一種新的可變形3D-GS方法。該方法利用了在具有變形場的規(guī)范空間中學(xué)習(xí)的3D高斯,該變形場專門為單目動態(tài)場景設(shè)計(jì)。該方法引入了一種為真實(shí)世界的單目動態(tài)場景量身定制的退火平滑訓(xùn)練(AST)機(jī)制,有效地解決了錯誤姿勢對時間插值任務(wù)的影響,而不引入額外的訓(xùn)練開銷。通過使用差分高斯光柵化器,可變形的3D高斯不僅提高了渲染質(zhì)量,而且實(shí)現(xiàn)了實(shí)時速度,在這兩個方面都超過了現(xiàn)有的方法。該方法被證明非常適合于諸如NVS之類的任務(wù),并且由于其基于點(diǎn)的性質(zhì)而為后期生產(chǎn)任務(wù)提供了多功能性。實(shí)驗(yàn)結(jié)果強(qiáng)調(diào)了該方法優(yōu)越的渲染效果和實(shí)時性,證實(shí)了其在動態(tài)場景建模中的有效性。
DIFFUSION
擴(kuò)散和高斯飛濺是一種從文本描述/提示生成3D目標(biāo)的強(qiáng)大技術(shù)。它結(jié)合了兩種不同方法的優(yōu)點(diǎn):擴(kuò)散模型和高斯散射。擴(kuò)散模型是一種神經(jīng)網(wǎng)絡(luò),可以學(xué)習(xí)從有噪聲的輸入中生成圖像。通過向模型提供一系列越來越干凈的圖像,模型學(xué)會扭轉(zhuǎn)圖像損壞的過程,最終從完全隨機(jī)的輸入中生成干凈的圖像。這可以用于從文本描述生成圖像,因?yàn)槟P涂梢詫W(xué)習(xí)將單詞與相應(yīng)的視覺特征相關(guān)聯(lián)。具有擴(kuò)散和高斯飛濺的文本到3D管道的工作原理是首先使用擴(kuò)散模型從文本描述生成初始3D點(diǎn)云。然后使用高斯散射將點(diǎn)云轉(zhuǎn)換為一組高斯球體。最后,對高斯球體進(jìn)行渲染,以生成目標(biāo)的3D圖像。
Text based generation
Yi等人的工作介紹了Gaussian Dreamer,這是一種文本到3D的方法,通過高斯分裂無縫連接3D和2D擴(kuò)散模型,確保3D一致性和復(fù)雜的細(xì)節(jié)生成。圖7顯示了所提出的生成圖像的模型。為了進(jìn)一步豐富內(nèi)容,引入了噪聲點(diǎn)增長和顏色擾動來補(bǔ)充初始化的3D高斯。該方法的特點(diǎn)是簡單有效,在單個GPU上15分鐘內(nèi)生成3D實(shí)例,與以前的方法相比,速度優(yōu)越。生成的三維實(shí)例可以直接實(shí)時渲染,突出了該方法的實(shí)用性。總體框架包括使用3D擴(kuò)散模型先驗(yàn)進(jìn)行初始化,并使用2D擴(kuò)散模型進(jìn)行優(yōu)化,通過利用兩個擴(kuò)散模型的優(yōu)勢,能夠從文本提示創(chuàng)建高質(zhì)量和多樣化的3D資產(chǎn)。
Chen等人提出了基于高斯散射的文本到3D生成(GSGEN),這是一種利用3D高斯作為表示的文本到三維生成方法。通過利用幾何先驗(yàn),強(qiáng)調(diào)高斯散點(diǎn)在文本到三維生成中的獨(dú)特優(yōu)勢。兩階段優(yōu)化策略結(jié)合了二維和三維擴(kuò)散的聯(lián)合指導(dǎo),在幾何優(yōu)化中形成連貫的粗糙結(jié)構(gòu),然后在基于緊湊性的外觀細(xì)化中致密化。
Denoising and Optimisation
李等人的GaussianDiffusion框架代表了一種新穎的文本到三維方法,利用高斯飛濺和Langevin動力學(xué)擴(kuò)散模型來加速渲染并實(shí)現(xiàn)無與倫比的真實(shí)感。結(jié)構(gòu)化噪聲的引入解決了多視圖幾何挑戰(zhàn),而變分高斯散射模型則緩解了收斂問題和偽影。雖然目前的結(jié)果顯示真實(shí)性有所提高,但正在進(jìn)行的研究旨在細(xì)化變分高斯引入的模糊度和霧度,以進(jìn)一步增強(qiáng)。
楊等人對現(xiàn)有的擴(kuò)散先驗(yàn)進(jìn)行了徹底的檢查,提出了一個統(tǒng)一的框架,通過優(yōu)化去噪分?jǐn)?shù)來改進(jìn)這些先驗(yàn)。該方法的多功能性擴(kuò)展到各種用例,始終如一地提供實(shí)質(zhì)性的性能增強(qiáng)。在實(shí)驗(yàn)評估中,我們的方法取得了前所未有的性能,超過了當(dāng)代的方法。盡管它在細(xì)化3D生成的紋理方面取得了成功,但在增強(qiáng)生成的3D模型的幾何結(jié)構(gòu)方面仍有改進(jìn)的空間。
OPTIMIZATION AND SPEED
本小節(jié)將討論研究人員為更快的訓(xùn)練和/或推理速度而開發(fā)的技術(shù)。在Chung等人的研究中,引入了一種方法來優(yōu)化高斯散射,以使用有限數(shù)量的圖像進(jìn)行3D場景表示,同時緩解過擬合問題。用高斯散點(diǎn)表示3D場景的傳統(tǒng)方法可能導(dǎo)致過擬合,特別是當(dāng)可用圖像有限時。該技術(shù)使用來自預(yù)先訓(xùn)練的單目深度估計(jì)模型的深度圖作為幾何指南,并與來自SFM管道的稀疏特征點(diǎn)對齊。這些有助于優(yōu)化3D高斯散射,減少浮動偽影并確保幾何相干性。所提出的深度引導(dǎo)優(yōu)化策略在LLFF數(shù)據(jù)集上進(jìn)行了測試,與僅使用圖像相比,顯示了改進(jìn)的幾何結(jié)構(gòu)。該研究包括引入提前停止策略和深度圖的平滑項(xiàng),這兩項(xiàng)都有助于提高性能。然而,也承認(rèn)存在局限性,例如依賴于單目深度估計(jì)模型的準(zhǔn)確性以及依賴于COLMAP的性能。建議未來的工作探索相互依存的估計(jì)深度,并解決深度估計(jì)困難地區(qū)的挑戰(zhàn),如無紋理平原或天空。
傅等人介紹了COLMAP Free 3D Gaussian Splatting(CF-3DGS),這是一種新的端到端框架,用于從序列圖像中同時進(jìn)行相機(jī)姿態(tài)估計(jì)和NVS,解決了以前方法中相機(jī)運(yùn)動量大和訓(xùn)練持續(xù)時間長帶來的挑戰(zhàn)。與NeRF的隱式表示不同,CF-3DGS利用顯式點(diǎn)云來表示場景。該方法順序處理輸入幀,逐步擴(kuò)展3D高斯以重建整個場景,在具有挑戰(zhàn)性的場景(如360°視頻)上展示了增強(qiáng)的性能和穩(wěn)健性。該方法以順序的方式聯(lián)合優(yōu)化相機(jī)姿勢和3D-GS,使其特別適合視頻流或有序的圖像采集。高斯飛濺的使用能夠?qū)崿F(xiàn)快速的訓(xùn)練和推理速度,展示了這種方法相對于以前方法的優(yōu)勢。在證明有效性的同時,人們承認(rèn),順序優(yōu)化將應(yīng)用程序主要限制在有序的圖像集合上,這為在未來的研究中探索無序圖像集合的擴(kuò)展留下了空間。
RENDERING AND SHADING METHODS
Yu等人在3D-GS中觀察到,特別是當(dāng)改變采樣率時,NVS中會出現(xiàn)偽影。引入的解決方案包括結(jié)合3D平滑濾波器來調(diào)節(jié)3D高斯基元的最大頻率,從而解決分布外渲染中的偽影。此外,2D膨脹濾波器被2D Mip濾波器取代,以解決混疊和膨脹問題。對基準(zhǔn)數(shù)據(jù)集的評估證明了Mip Splatting的有效性,尤其是在修改采樣率時。所提出的修改是原則性的、直截了當(dāng)?shù)?,需要對原?D-GS代碼進(jìn)行最小的更改。然而,也存在公認(rèn)的局限性,例如高斯濾波器近似引入的誤差和訓(xùn)練開銷的輕微增加。該研究將Mip Splatting作為一種具有競爭力的解決方案,展示了其與最先進(jìn)的方法的性能相當(dāng),以及在分發(fā)外場景中的卓越泛化能力,展示了它在實(shí)現(xiàn)任意規(guī)模的無別名渲染方面的潛力。
Gao等人提出了一種新的3D點(diǎn)云渲染方法,該方法能夠從多視圖圖像中分解材質(zhì)和照明。該框架支持以可區(qū)分的方式對場景進(jìn)行編輯、光線跟蹤和實(shí)時重新照明。場景中的每個點(diǎn)都由“可重新照明”的3D高斯表示,攜帶有關(guān)其法線方向、雙向反射分布函數(shù)(BRDF)等材料特性以及來自不同方向的入射光的信息。為了精確的照明估計(jì),入射光被分為全局和局部分量,并考慮基于視角的可見性。場景優(yōu)化利用3D高斯飛濺,而基于物理的可微分渲染處理BRDF和照明分解。一種創(chuàng)新的基于點(diǎn)的光線跟蹤方法利用邊界體層次結(jié)構(gòu),在實(shí)時渲染過程中實(shí)現(xiàn)了高效的可見性烘焙和逼真的陰影。實(shí)驗(yàn)表明,與現(xiàn)有方法相比,BRDF估計(jì)和視圖渲染效果更好。然而,對于沒有明確邊界和優(yōu)化過程中需要目標(biāo)遮罩的場景,仍然存在挑戰(zhàn)。未來的工作可以探索集成多視圖立體(MVS)線索,以提高通過3D高斯散射生成的點(diǎn)云的幾何精度。這種“可靠的3D高斯”管道展示了很有前途的實(shí)時渲染功能,并通過基于點(diǎn)云的方法為革命性地基于網(wǎng)格的圖形打開了大門,該方法允許重新照明、編輯和光線跟蹤。
COMPRESSION
Fan等人介紹了一種用于壓縮渲染中使用的3D高斯表示的新技術(shù)。他們的方法根據(jù)其重要性識別并刪除冗余高斯,類似于網(wǎng)絡(luò)修剪,確保對視覺質(zhì)量的影響最小。利用知識提取和偽視圖增強(qiáng),LightGaussian將信息傳遞到具有較少球面諧波的較低復(fù)雜度表示,從而進(jìn)一步減少冗余。此外,一種稱為VecTree量化的混合方案通過量化屬性值來優(yōu)化表示,從而在精度沒有顯著損失的情況下實(shí)現(xiàn)更小的尺寸。與標(biāo)準(zhǔn)方法相比,LightGaussian實(shí)現(xiàn)了超過15倍的平均壓縮比,在Mip NeRF 360和Tanks&Temples等數(shù)據(jù)集上,渲染速度從139 FPS顯著提高到215 FPS。所涉及的關(guān)鍵步驟是計(jì)算全局顯著性、修剪高斯、用偽視圖提取知識以及使用VecTree量化屬性??偟膩碚f,LightGaussian為將基于大點(diǎn)的表示轉(zhuǎn)換為緊湊格式提供了一個突破性的解決方案,從而顯著減少了數(shù)據(jù)冗余,并大幅提高了渲染效率。
應(yīng)用和案例研究
本節(jié)深入探討了自2023年7月高斯飛濺算法問世以來,該算法在應(yīng)用方面的顯著進(jìn)步。這些進(jìn)步在各種領(lǐng)域都有特定的用途,如化身、SLAM、網(wǎng)格提取和物理模擬。當(dāng)應(yīng)用于這些專門的用例時,Gaussian Splatting在不同的應(yīng)用場景中展示了它的多功能性和有效性。
AVATARS
隨著AR/VR應(yīng)用熱潮的興起,高斯飛濺的大量研究都集中在開發(fā)人類的數(shù)字化身上。從較少的視角捕捉主題并構(gòu)建3D模型是一項(xiàng)具有挑戰(zhàn)性的任務(wù),高斯飛濺正幫助研究人員和行業(yè)實(shí)現(xiàn)這一目標(biāo)。
Joint angles or articulation
這種高斯散射技術(shù)專注于根據(jù)關(guān)節(jié)角度對人體進(jìn)行建模。這類模型的一些參數(shù)反映了三維關(guān)節(jié)的位置、角度和其他類似的參數(shù)。對輸入幀進(jìn)行解碼以找出當(dāng)前幀的3D關(guān)節(jié)位置和角度。
Zielonka等人提出了一種使用高斯散射的人體表示模型,并利用創(chuàng)新的3D-GS技術(shù)實(shí)現(xiàn)了實(shí)時渲染。與現(xiàn)有的照片級真實(shí)感可駕駛化身不同,可駕駛3D高斯飛濺(D3GA)不依賴于訓(xùn)練期間的精確3D配準(zhǔn)或測試期間的密集輸入圖像。相反,它利用密集校準(zhǔn)的多視圖視頻進(jìn)行實(shí)時渲染,并引入了由關(guān)節(jié)中的關(guān)鍵點(diǎn)和角度驅(qū)動的基于四面體籠的變形,使其對涉及通信的應(yīng)用程序有效,如圖9所示。
Animatable
這些方法通常訓(xùn)練依賴于位姿的高斯圖來捕捉復(fù)雜的動態(tài)外觀,包括服裝中更精細(xì)的細(xì)節(jié),從而產(chǎn)生高質(zhì)量的化身。其中一些方法還支持實(shí)時渲染功能。
姜等人提出了HiFi4G,這種方法可以有效地渲染真實(shí)的人類。HiFi4G將3D高斯表示與非剛性跟蹤相結(jié)合,采用運(yùn)動先驗(yàn)的對偶圖機(jī)制和具有自適應(yīng)時空正則化器的4D高斯優(yōu)化。HiFi4G實(shí)現(xiàn)了大約25倍的壓縮率,每幀需要不到2MB的存儲空間,在優(yōu)化速度、渲染質(zhì)量和存儲開銷方面表現(xiàn)出色,如圖10所示。它提出了一種緊湊的4D高斯表示,橋接高斯飛濺和非剛性跟蹤。然而,對分割的依賴性、對導(dǎo)致偽影的較差分割的敏感性,以及對每幀重建和網(wǎng)格跟蹤的需求都造成了限制。未來的研究可能側(cè)重于加速優(yōu)化過程和減少GPU排序依賴性,以便在網(wǎng)絡(luò)查看器和移動設(shè)備上進(jìn)行更廣泛的部署。
Head based
以前的頭部化身方法大多依賴于固定的顯式基元(網(wǎng)格、點(diǎn))或隱式曲面(SDF)。基于高斯散射的模型將為AR/VR和基于濾鏡的應(yīng)用的興起鋪平道路,讓用戶嘗試不同的妝容、色調(diào)、發(fā)型等。
王等人利用規(guī)范的高斯變換來表示動態(tài)場景。使用顯式“動態(tài)”三平面作為參數(shù)化頭部幾何的有效容器,與底層幾何和三平面中的因子很好地對齊,作者獲得了正則高斯的對齊正則因子。使用微小的MLP,因子被解碼為3D高斯基元的不透明度和球面諧波系數(shù)。Quin等人創(chuàng)建了具有可控視角、姿勢和表情的超逼真頭部化身。在化身重構(gòu)過程中,作者同時對變形模型參數(shù)和高斯splat參數(shù)進(jìn)行了優(yōu)化。該作品展示了化身在各種具有挑戰(zhàn)性的場景中的動畫能力。Dhamo等人提出了HeadGaS,這是一種混合模型,以可學(xué)習(xí)的潛在特征為基礎(chǔ),擴(kuò)展了3D-GS的顯式表示。然后,這些特征可以與來自參數(shù)化頭部模型的低維參數(shù)線性混合,以導(dǎo)出依賴于表情的最終顏色和不透明度值。圖11顯示了一些示例圖像。
SLAM
SLAM是自動駕駛汽車中使用的一種技術(shù),用于同時構(gòu)建地圖并確定車輛在該地圖內(nèi)的位置。它使車輛能夠?qū)Ш胶屠L制未知環(huán)境的地圖。顧名思義,視覺SLAM(vSLAM)依賴于來自相機(jī)和各種圖像傳感器的圖像。這種方法適用于各種相機(jī)類型,包括簡單、復(fù)眼和RGB-D相機(jī),使其成為一種具有成本效益的解決方案。通過攝像頭,可以將地標(biāo)檢測與基于圖形的優(yōu)化相結(jié)合,增強(qiáng)SLAM實(shí)現(xiàn)的靈活性。單眼SLAM是vSLAM的一個子集,使用單個相機(jī),在深度感知方面面臨挑戰(zhàn),這可以通過結(jié)合額外的傳感器來解決,如里程計(jì)和慣性測量單元(IMU)的編碼器。與vSLAM相關(guān)的關(guān)鍵技術(shù)包括SFM、視覺里程計(jì)和束調(diào)整。視覺SLAM算法分為兩大類:稀疏方法,采用特征點(diǎn)匹配(例如,并行跟蹤和映射,ORB-SLAM),密集方法,利用整體圖像亮度(例如,DTAM,LSD-SLAM,DSO,SVO)。
網(wǎng)格提取與物理
高斯散射可以用于基于物理的模擬和渲染。通過在三維高斯核中添加更多的參數(shù),可以對速度、應(yīng)變和其他力學(xué)特性進(jìn)行建模。這就是為什么在幾個月內(nèi)開發(fā)了各種方法,包括使用高斯散射模擬物理。
謝等人介紹了一種基于連續(xù)體力學(xué)的三維高斯運(yùn)動學(xué)方法,采用偏微分方程(PDE)來驅(qū)動高斯核及其相關(guān)球面諧波的演化。這一創(chuàng)新允許使用統(tǒng)一的模擬渲染管道,通過消除對顯式目標(biāo)網(wǎng)格的需要來簡化運(yùn)動生成。他們的方法通過在各種材料上進(jìn)行全面的基準(zhǔn)測試和實(shí)驗(yàn),展示了多功能性,在具有簡單動力學(xué)的場景中展示了實(shí)時性能。作者介紹了PhysGaussian,這是一個同時無縫生成基于物理的動力學(xué)和照片逼真渲染的框架。在承認(rèn)框架中缺乏陰影演化和使用單點(diǎn)求積進(jìn)行體積積分等局限性的同時,作者提出了未來工作的途徑,包括在材料點(diǎn)法(MPM)中采用高階求積,并探索神經(jīng)網(wǎng)絡(luò)的集成以實(shí)現(xiàn)更真實(shí)的建模。該框架可以擴(kuò)展到處理各種材料,如液體,并結(jié)合利用大型語言模型(LLM)進(jìn)步的用戶控件。圖13顯示了PhysGaussian框架的訓(xùn)練過程。
編輯
高斯飛濺還將其翅膀擴(kuò)展到場景的3D編輯和點(diǎn)操縱。使用將要討論的最新進(jìn)展,甚至可以對場景進(jìn)行基于提示的3D編輯。這些方法不僅將場景表示為3D高斯圖,而且對場景具有語義和爭議性的理解。
Chen等人介紹了GaussianEditor,這是一種基于高斯Splatting的新型三維編輯算法,旨在克服傳統(tǒng)三維編輯方法的局限性。雖然依賴于網(wǎng)格或點(diǎn)云的傳統(tǒng)方法難以進(jìn)行逼真的描繪,但像NeRF這樣的隱式3D表示面臨著處理速度慢和控制有限的挑戰(zhàn)。GaussianEditor通過利用3D-GS來解決這些問題,通過高斯語義跟蹤增強(qiáng)精度和控制,并引入層次高斯飛濺(HGS),在生成指導(dǎo)下獲得穩(wěn)定和精細(xì)的結(jié)果。該算法包括一種專門的3D修復(fù)方法,用于有效地去除和集成物體,在廣泛的實(shí)驗(yàn)中顯示出卓越的控制能力、功效和快速性能。圖14顯示了Chen等人測試的各種文本提示。GaussianEditor標(biāo)志著3D編輯的重大進(jìn)步,提供了增強(qiáng)的有效性、速度和可控性。該研究的貢獻(xiàn)包括引入高斯語義跟蹤進(jìn)行詳細(xì)編輯控制,提出HGS在生成指導(dǎo)下實(shí)現(xiàn)穩(wěn)定收斂,開發(fā)用于快速刪除和添加目標(biāo)的3D修復(fù)算法,以及大量實(shí)驗(yàn)證明該方法優(yōu)于以前的3D編輯方法。盡管GaussianEditor取得了進(jìn)步,但它依賴于二維擴(kuò)散模型進(jìn)行有效監(jiān)督,在處理復(fù)雜提示方面存在局限性,這是基于類似模型的其他三維編輯方法面臨的共同挑戰(zhàn)。
討論
傳統(tǒng)上,3D場景是使用網(wǎng)格和點(diǎn)來表示的,因?yàn)樗鼈兊娘@式性質(zhì)以及與基于GPU/CUDA的快速光柵化的兼容性。然而,最近的進(jìn)步,如NeRF方法,專注于連續(xù)場景表示,采用了多層感知器優(yōu)化等技術(shù),通過體積射線行進(jìn)進(jìn)行新的視圖合成。雖然連續(xù)表示有助于優(yōu)化,但渲染所需的隨機(jī)采樣會引入昂貴的噪聲。高斯飛濺通過利用3D高斯表示進(jìn)行優(yōu)化,實(shí)現(xiàn)最先進(jìn)的視覺質(zhì)量和有競爭力的訓(xùn)練時間,彌補(bǔ)了這一差距。此外,基于瓦片的飛濺解決方案可確保實(shí)時渲染具有頂級質(zhì)量。在渲染3D場景時,高斯飛濺在質(zhì)量和效率方面提供了一些最佳結(jié)果。
高斯飛濺已經(jīng)發(fā)展到通過修改其原始表示來處理動態(tài)和可變形目標(biāo)。這涉及到合并參數(shù),如3D位置、旋轉(zhuǎn)、縮放因子和顏色和不透明度的球面諧波系數(shù)。該領(lǐng)域的最新進(jìn)展包括引入稀疏性損失以鼓勵ba-sis軌跡共享,引入雙域變形模型以捕獲與時間相關(guān)的殘差,以及將生成器網(wǎng)絡(luò)與3D高斯渲染連接起來的高斯殼映射。還努力解決非剛性跟蹤、化身表情變化和高效渲染逼真人類表現(xiàn)等挑戰(zhàn)。這些進(jìn)步共同致力于在處理動態(tài)和可變形目標(biāo)時實(shí)現(xiàn)實(shí)時渲染、優(yōu)化效率和高質(zhì)量結(jié)果。
在另一個方面,擴(kuò)散和高斯飛濺協(xié)同作用,從文本提示創(chuàng)建3D目標(biāo)。擴(kuò)散模型是一種神經(jīng)網(wǎng)絡(luò),它通過一系列越來越干凈的圖像來逆轉(zhuǎn)圖像損壞的過程,從而學(xué)習(xí)從有噪聲的輸入中生成圖像。在文本到三維管道中,擴(kuò)散模型根據(jù)文本描述生成初始三維點(diǎn)云,然后使用高斯散射將其轉(zhuǎn)換為高斯球體。渲染的高斯球體生成最終的三維目標(biāo)圖像。該領(lǐng)域的進(jìn)展包括使用結(jié)構(gòu)化噪聲來解決多視圖幾何挑戰(zhàn),引入變分高斯散射模型來解決收斂問題,以及優(yōu)化去噪分?jǐn)?shù)以增強(qiáng)擴(kuò)散先驗(yàn),旨在實(shí)現(xiàn)基于文本的3D生成中無與倫比的真實(shí)性和性能。
高斯飛濺已被廣泛應(yīng)用于AR/VR應(yīng)用的數(shù)字化身的創(chuàng)建。這涉及到從最小數(shù)量的視點(diǎn)捕捉目標(biāo)并構(gòu)建3D模型。該技術(shù)已被用于建模人體關(guān)節(jié)、關(guān)節(jié)角度和其他參數(shù),從而能夠生成富有表現(xiàn)力和可控的化身。這一領(lǐng)域的進(jìn)步包括開發(fā)捕捉高頻面部細(xì)節(jié)、保留夸張表情和有效變形化身的方法。此外,還提出了混合模型,將顯式表示與可學(xué)習(xí)的潛在特征相結(jié)合,以實(shí)現(xiàn)與表達(dá)相關(guān)的最終顏色和不透明度值。這些進(jìn)步旨在增強(qiáng)生成的3D模型的幾何形狀和紋理,以滿足AR/VR應(yīng)用中對逼真和可控化身日益增長的需求。
Gaussian Splatting還在SLAM中找到了多功能的應(yīng)用,在GPU上提供實(shí)時跟蹤和建圖功能。通過使用3D高斯表示和可微分的飛濺光柵化管道,它實(shí)現(xiàn)了真實(shí)世界和合成場景的快速和真實(shí)感渲染。該技術(shù)擴(kuò)展到網(wǎng)格提取和基于物理的模擬,允許在沒有明確目標(biāo)網(wǎng)格的情況下對機(jī)械特性進(jìn)行建模。連續(xù)介質(zhì)力學(xué)和偏微分方程的進(jìn)步使高斯核得以進(jìn)化,簡化了運(yùn)動生成。值得注意的是,優(yōu)化涉及高效的數(shù)據(jù)結(jié)構(gòu),如OpenVDB、用于對齊的正則化項(xiàng)和用于減少誤差的物理啟發(fā)項(xiàng),從而提高了整體效率和準(zhǔn)確性。在壓縮和提高高斯散射渲染效率方面也做了其他工作。
對比
從表2可以清楚地看出,在撰寫本文時,高斯飛濺是最接近實(shí)時渲染和動態(tài)場景表示的選項(xiàng)。占用網(wǎng)絡(luò)根本不是為NVS用例量身定制的。攝影測量是創(chuàng)建具有強(qiáng)烈背景感的高度準(zhǔn)確和逼真的模型的理想選擇。NeRF擅長生成新穎的視圖和逼真的照明效果,提供創(chuàng)作自由和處理復(fù)雜場景。高斯飛濺在其實(shí)時渲染功能和交互式探索方面大放異彩,使其適用于動態(tài)應(yīng)用程序。每種方法都有其利基市場,并相互補(bǔ)充,為3D重建和可視化提供了各種各樣的工具。
挑戰(zhàn)和限制
盡管高斯飛濺是一種非常穩(wěn)健的技術(shù),但它也有一些需要注意的地方。其中一些列出如下:
- 1)計(jì)算復(fù)雜性:高斯散射需要對每個像素的高斯函數(shù)進(jìn)行評估,這可能是計(jì)算密集型的,尤其是在處理大量點(diǎn)或粒子時。
- 2)內(nèi)存使用:存儲高斯飛濺的中間結(jié)果,例如每個點(diǎn)對相鄰像素的加權(quán)貢獻(xiàn),可能會消耗大量內(nèi)存。
- 3)邊緣偽影:高斯散射會在圖像的邊緣或高對比度區(qū)域附近產(chǎn)生不希望的偽影,如振鈴或模糊。
- 4)性能與準(zhǔn)確性的權(quán)衡:實(shí)現(xiàn)高質(zhì)量的結(jié)果可能需要使用大的內(nèi)核大小或評估每個像素的多個高斯函數(shù),這會影響性能。
- 5)與其他渲染技術(shù)的集成:在保持性能和視覺連貫性的同時,將高斯散射與陰影貼圖或環(huán)境遮擋等其他技術(shù)集成可能會很復(fù)雜。
未來方向
實(shí)時3D重建技術(shù)將實(shí)現(xiàn)計(jì)算機(jī)圖形學(xué)和相關(guān)領(lǐng)域的多種功能,例如實(shí)時交互式探索3D場景或模型,通過即時反饋操縱視點(diǎn)和目標(biāo)。它還可以實(shí)時渲染具有移動目標(biāo)或不斷變化的環(huán)境的動態(tài)場景,增強(qiáng)真實(shí)感和沉浸感。實(shí)時3D重建可用于仿真和訓(xùn)練環(huán)境,為汽車、航空航天和醫(yī)學(xué)等領(lǐng)域的虛擬場景提供逼真的視覺反饋。它還將支持沉浸式AR和VR體驗(yàn)的實(shí)時渲染,用戶可以實(shí)時與虛擬目標(biāo)或環(huán)境交互。總體而言,實(shí)時高斯飛濺增強(qiáng)了計(jì)算機(jī)圖形、可視化、模擬和沉浸式技術(shù)中各種應(yīng)用的效率、交互性和真實(shí)性。
結(jié)論
在本文中,我們討論了與用于三維重建和新視圖合成的高斯散射相關(guān)的各種功能和應(yīng)用方面。它涵蓋了動態(tài)和變形建模、運(yùn)動跟蹤、非剛性/可變形目標(biāo)、表情/情緒變化、基于文本的生成擴(kuò)散、去噪、優(yōu)化、化身、可動畫目標(biāo)、基于頭部的建模、同步定位和規(guī)劃、網(wǎng)格提取和物理、優(yōu)化技術(shù)、編輯功能、渲染方法、壓縮等主題。
具體而言,本文深入探討了基于圖像的3D重建的挑戰(zhàn)和進(jìn)展,基于學(xué)習(xí)的方法在改進(jìn)3D形狀估計(jì)中的作用,以及高斯飛濺技術(shù)在處理動態(tài)場景、交互式目標(biāo)操作、3D分割和場景編輯中的潛在應(yīng)用和未來方向。
高斯飛濺在不同領(lǐng)域具有變革意義,包括計(jì)算機(jī)生成圖像、VR/AR、機(jī)器人、電影和動畫、汽車設(shè)計(jì)、零售、環(huán)境研究和航空航天應(yīng)用。然而,值得注意的是,與NeRFs等其他方法相比,高斯散射在實(shí)現(xiàn)真實(shí)感方面可能存在局限性。此外,還應(yīng)考慮與過擬合、計(jì)算資源和渲染質(zhì)量限制相關(guān)的挑戰(zhàn)。盡管存在這些局限性,但高斯散射的持續(xù)研究和進(jìn)步仍在繼續(xù)解決這些挑戰(zhàn),并進(jìn)一步提高該方法的有效性和適用性。