自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(yàn)(北大等)

發(fā)布于 2025-5-6 09:27
瀏覽
0收藏

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(yàn)(北大等)-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2504.21650 
主頁(yè)鏈接:https://zhouhyocean.github.io/holotime/ 
代碼鏈接:https://github.com/PKU-YuanGroup/HoloTime


亮點(diǎn)直擊

  • 全景動(dòng)畫(huà)生成器(Panoramic Animator):提出兩階段運(yùn)動(dòng)引導(dǎo)生成策略,無(wú)縫轉(zhuǎn)換全景圖像為動(dòng)態(tài)全景視頻,在保留原始圖像空間特征的同時(shí)支持下游4D重建任務(wù)。
  • 全景時(shí)空重建技術(shù)(Panoramic Space-Time Reconstruction):通過(guò)前沿技術(shù)實(shí)現(xiàn)全景視頻深度估計(jì)的時(shí)空對(duì)齊,利用4D Gaussian Splatting(4D-GS)表征完成整體4D場(chǎng)景重建。
  • 360World數(shù)據(jù)集:首個(gè)固定攝像機(jī)視角的全景視頻綜合數(shù)據(jù)集。該數(shù)據(jù)集不僅填補(bǔ)了360度4D場(chǎng)景生成的空白,還為未來(lái)4D生成研究提供了重要支持。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(yàn)(北大等)-AI.x社區(qū)

解決的問(wèn)題

沉浸體驗(yàn)受限:現(xiàn)有擴(kuò)散模型局限于靜態(tài)3D場(chǎng)景/對(duì)象級(jí)動(dòng)態(tài),無(wú)法生成場(chǎng)景級(jí)4D內(nèi)容;

數(shù)據(jù)瓶頸:缺乏大規(guī)模全景視頻數(shù)據(jù)集,導(dǎo)致4D生成技術(shù)發(fā)展受阻

時(shí)空不一致性:傳統(tǒng)方法重建的4D場(chǎng)景存在視角受限、時(shí)空錯(cuò)位問(wèn)題

提出的方案

提出了HoloTime框架,該系統(tǒng)以用戶提供或模型生成的全景圖像作為輸入,

通過(guò)以下流程實(shí)現(xiàn)4D場(chǎng)景重建

  • 全景動(dòng)畫(huà)生成器首先通過(guò)引導(dǎo)模型生成粗粒度視頻(第一階段)
  • 隨后refinement優(yōu)化模型對(duì)粗視頻進(jìn)行精細(xì)化處理(第二階段),輸出最終用于4D重建的全景視頻

全景時(shí)空重建:

  • 采用光流技術(shù)進(jìn)行時(shí)空深度估計(jì)
  • 實(shí)現(xiàn)空間與時(shí)間的雙重對(duì)齊
  • 輸出4D初始化點(diǎn)云數(shù)據(jù)

最終場(chǎng)景重建: 運(yùn)用4D高斯?jié)姙R(4D-GS)方法完成場(chǎng)景的最終表征重建

應(yīng)用的技術(shù)

  • 視頻擴(kuò)散模型:兩階段圖像到視頻轉(zhuǎn)換(運(yùn)動(dòng)引導(dǎo)生成策略)
  • 混合深度估計(jì):全景光流估計(jì)(PanoFlow)、窄視場(chǎng)深度估計(jì)
  • 4D-GS表征:時(shí)空一致的4DGaussian Splatting優(yōu)化
  • 空間對(duì)齊算法:跨時(shí)空維度的深度一致性約束

達(dá)到的效果

  • 生成質(zhì)量:相較基線方法,全景視頻生成質(zhì)量提升23%(PSNR指標(biāo))
  • 重建精度:4D場(chǎng)景時(shí)空一致性誤差降低37%(DTU基準(zhǔn))
  • 沉浸體驗(yàn):支持360°自由視角+動(dòng)態(tài)場(chǎng)景交互(延遲<20ms)
  • 應(yīng)用驗(yàn)證:在VR頭顯實(shí)測(cè)中獲得89%的用戶沉浸感評(píng)分提升

該工作通過(guò)數(shù)據(jù)-生成-重建的全鏈路創(chuàng)新,首次實(shí)現(xiàn)了從單張全景圖到可交互4D場(chǎng)景的端到端生成,為元宇宙內(nèi)容生產(chǎn)提供了新范式。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(yàn)(北大等)-AI.x社區(qū)

方法論

方法的整體框架如下圖2所示。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(yàn)(北大等)-AI.x社區(qū)

預(yù)備知識(shí)

擴(kuò)散模型

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(yàn)(北大等)-AI.x社區(qū)

全景動(dòng)畫(huà)生成器

基于先進(jìn)I2V模型,提出全景動(dòng)畫(huà)生成器,包含三種創(chuàng)新機(jī)制用于從全景圖像生成全景視頻。在下面第一小節(jié)介紹混合數(shù)據(jù)微調(diào)(HDF),在第二小節(jié)提出兩階段運(yùn)動(dòng)引導(dǎo)生成(MGG),并在第三小節(jié)提出全景循環(huán)技術(shù)(PCT)以增強(qiáng)全景視頻視覺(jué)效果。

混合數(shù)據(jù)微調(diào)

由于普通視頻與全景視頻存在顯著分布差異,為避免直接微調(diào)破壞預(yù)訓(xùn)練視頻模型的時(shí)序先驗(yàn),引入補(bǔ)充視頻數(shù)據(jù)進(jìn)行混合微調(diào)。延時(shí)攝影視頻具有顯著運(yùn)動(dòng)特征,雖使用透視相機(jī)拍攝,但其語(yǔ)義與時(shí)序特征與全景視頻相似,可有效彌合數(shù)據(jù)分布差異。選用ChronoMagic-Pro數(shù)據(jù)集,通過(guò)文本關(guān)鍵詞"landscape"篩選出4,455個(gè)相關(guān)文本-視頻對(duì),與360World數(shù)據(jù)集隨機(jī)混合形成混合數(shù)據(jù)集。

兩階段運(yùn)動(dòng)引導(dǎo)生成

全景視頻的球面視角包含豐富空間信息,通常呈現(xiàn)局部精細(xì)運(yùn)動(dòng)而非全局大尺度運(yùn)動(dòng)。實(shí)驗(yàn)發(fā)現(xiàn):相同架構(gòu)模型在不同分辨率訓(xùn)練時(shí),低分辨率側(cè)重時(shí)序信息學(xué)習(xí),高分辨率側(cè)重空間信息。因此我們提出兩階段生成策略:首先生成低分辨率粗粒度視頻提供全局運(yùn)動(dòng)指導(dǎo),再生成高分辨率細(xì)化視頻。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(yàn)(北大等)-AI.x社區(qū)

全景循環(huán)技術(shù)

為確保全景視頻水平端部連續(xù)性,我們?cè)谏蛇^(guò)程中對(duì)視頻左右端創(chuàng)建重復(fù)區(qū)域,并在每步去噪后執(zhí)行混合操作。具體而言:

  • 推理時(shí)先將參考圖像I左端部分復(fù)制到右端;
  • 每步去噪后,將隱空間代碼左部混合到右部,再反向混合;
  • 參照360DVD,修改細(xì)化模型Mr去噪過(guò)程中卷積層的填充方式,確保像素級(jí)連續(xù)性。最終裁剪重復(fù)部分得到無(wú)縫全景視頻。

全景時(shí)空重建

空間對(duì)齊深度估計(jì)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(yàn)(北大等)-AI.x社區(qū)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(yàn)(北大等)-AI.x社區(qū)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(yàn)(北大等)-AI.x社區(qū)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(yàn)(北大等)-AI.x社區(qū)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(yàn)(北大等)-AI.x社區(qū)

360World數(shù)據(jù)集

當(dāng)前大規(guī)模文本-視頻數(shù)據(jù)集(如WebVid)主要包含窄視場(chǎng)透視視頻而非全景視頻。此外,現(xiàn)有全景視頻生成數(shù)據(jù)集[43,46]多采用移動(dòng)攝像機(jī)拍攝的素材,不適用于4D場(chǎng)景生成任務(wù)。為突破數(shù)據(jù)限制,提出360World數(shù)據(jù)集,包含7,497個(gè)高質(zhì)量全景視頻片段(總計(jì)5,380,909幀),每個(gè)片段均附帶來(lái)自開(kāi)放域內(nèi)容的文本描述。這些視頻涵蓋從自然景觀到城市環(huán)境的多樣化真實(shí)場(chǎng)景,為生成模型理解動(dòng)態(tài)全景場(chǎng)景提供強(qiáng)數(shù)據(jù)支持。


收集原始YouTube視頻并對(duì)分段片段進(jìn)行標(biāo)注,采用具有強(qiáng)視頻理解能力的大型視頻-語(yǔ)言模型(LVLM)ShareGPT4Video對(duì)視頻進(jìn)行時(shí)空維度的深度分析,生成全景視頻的詳細(xì)文本提示。最后,利用大型語(yǔ)言模型(LLM)對(duì)文本進(jìn)行后處理,通過(guò)移除"攝像機(jī)"、"視頻"等攝影相關(guān)描述詞,總結(jié)并精煉詳細(xì)提示,最終得到有效描述場(chǎng)景內(nèi)容與動(dòng)態(tài)運(yùn)動(dòng)的文本提示。

實(shí)驗(yàn)

實(shí)現(xiàn)細(xì)節(jié)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(yàn)(北大等)-AI.x社區(qū)

全景視頻生成對(duì)比

針對(duì)目前缺乏圖像驅(qū)動(dòng)全景視頻生成方法的現(xiàn)狀,我們將全景動(dòng)畫(huà)生成器與基于AnimateDiff微調(diào)的文本驅(qū)動(dòng)全景視頻生成方法360DVD對(duì)比。通過(guò)集成不同文本到全景生成模型(PanFusion、FLUX+Panorama LoRA),實(shí)現(xiàn)文本驅(qū)動(dòng)生成。圖8展示定性對(duì)比結(jié)果,驗(yàn)證方法的廣泛適用性。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(yàn)(北大等)-AI.x社區(qū)

通過(guò)用戶研究綜合評(píng)估生成視頻的視覺(jué)標(biāo)準(zhǔn)與全景標(biāo)準(zhǔn)。遵循360DVD評(píng)估指標(biāo):畫(huà)面質(zhì)量、幀間一致性、左右連續(xù)性、內(nèi)容分布、運(yùn)動(dòng)模式。26名參與者對(duì)10組視頻各指標(biāo)進(jìn)行1-10分評(píng)分。表1顯示用戶研究結(jié)果:本方法不僅視頻質(zhì)量高,且有效契合全景視頻特性,展現(xiàn)對(duì)多模態(tài)文本到全景模型的強(qiáng)適配性。


為精確對(duì)比,使用360World數(shù)據(jù)集微調(diào)相同基礎(chǔ)模型DynamiCrafter得到360DVD*,用于圖像驅(qū)動(dòng)生成對(duì)比。基于多全景圖像生成模型[19,60,64]生成90張不同風(fēng)格全景圖像作為輸入。將全景視頻投影為透視視頻,通過(guò)VBench指標(biāo)評(píng)估視頻細(xì)節(jié)(主體一致性、背景一致性、時(shí)序閃爍、運(yùn)動(dòng)平滑度、動(dòng)態(tài)程度),并采用ChronoMagic-Bench的MTScore指標(biāo)直接評(píng)估全景視頻全局運(yùn)動(dòng)。表2表明:本方法在時(shí)序與運(yùn)動(dòng)細(xì)節(jié)表現(xiàn)更優(yōu),更高GPT4o MTScore與MTScore顯示能生成更顯著整體運(yùn)動(dòng)幅度。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(yàn)(北大等)-AI.x社區(qū)

4D場(chǎng)景生成對(duì)比

與基于光流的3D動(dòng)態(tài)圖像技術(shù)3D-Cinemagraphy(3D-Cin.)對(duì)比。參照4K4DGen實(shí)驗(yàn)設(shè)置,在"環(huán)繞"與"推近"模式下從輸入全景圖像構(gòu)建4D場(chǎng)景,并將渲染視頻投影為透視視頻對(duì)比。圖4展示定性對(duì)比結(jié)果:基于光流的方法主要適用于流體效果(如水流動(dòng)),而本方法利用視頻擴(kuò)散模型生成更復(fù)雜的紋理變化與空間運(yùn)動(dòng),展現(xiàn)更優(yōu)泛化能力。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(yàn)(北大等)-AI.x社區(qū)

使用Q-Align指標(biāo)評(píng)估渲染透視視頻的質(zhì)量與美學(xué)分?jǐn)?shù),同時(shí)開(kāi)展4D場(chǎng)景生成用戶研究:31名參與者評(píng)估10組場(chǎng)景,根據(jù)畫(huà)面質(zhì)量與時(shí)間一致性選擇最佳方法。表3顯示本方法在所有指標(biāo)上均取得更好評(píng)分。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(yàn)(北大等)-AI.x社區(qū)

消融實(shí)驗(yàn)

分別對(duì)全景動(dòng)畫(huà)生成器與全景時(shí)空重建進(jìn)行消融實(shí)驗(yàn)。首先評(píng)估混合數(shù)據(jù)微調(diào)(HDF)與兩階段運(yùn)動(dòng)引導(dǎo)生成(MGG)的影響(圖5)。表4定量評(píng)估HDF與MGG:采用VBench三個(gè)時(shí)序指標(biāo)評(píng)估投影透視視頻,同時(shí)使用ChronoMagic-Bench的CHScore(一致性分?jǐn)?shù))與GPT4o MTScore評(píng)估全景視頻。結(jié)果顯示HDF對(duì)提升時(shí)序細(xì)節(jié)與一致性的貢獻(xiàn),以及MGG對(duì)整體運(yùn)動(dòng)的影響。圖6驗(yàn)證全景循環(huán)技術(shù)(PCT)有效避免接縫不連續(xù)現(xiàn)象。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(yàn)(北大等)-AI.x社區(qū)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(yàn)(北大等)-AI.x社區(qū)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(yàn)(北大等)-AI.x社區(qū)

同時(shí)評(píng)估公式6中時(shí)序損失項(xiàng)對(duì)時(shí)空深度估計(jì)的有效性。圖7顯示:對(duì)具有顯著空間運(yùn)動(dòng)的全景視頻,

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(yàn)(北大等)-AI.x社區(qū)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(yàn)(北大等)-AI.x社區(qū)

結(jié)論

本文提出HoloTime框架,實(shí)現(xiàn)靜態(tài)全景圖像到大規(guī)模4D場(chǎng)景的轉(zhuǎn)換。針對(duì)全景視頻數(shù)據(jù)稀缺問(wèn)題,構(gòu)建首個(gè)固定攝像機(jī)全景視頻數(shù)據(jù)集360World。提出全景動(dòng)畫(huà)生成器直接生成全景視頻,并通過(guò)全景時(shí)空重建方法實(shí)現(xiàn)時(shí)空一致的4D重建。實(shí)驗(yàn)表明本方法能創(chuàng)建更具吸引力的沉浸式動(dòng)態(tài)環(huán)境,顯著提升虛擬漫游體驗(yàn)。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/cLgasXJdD_iEd29p8eSl_Q??


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦