自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR 2025 HighLight|打通視頻到3D的最后一公里,清華團隊推出一鍵式視頻擴散模型VideoScene

人工智能 新聞
來自清華大學(xué)的研究團隊首次提出 VideoScene:一款 “一步式” 視頻擴散模型,專注于 3D 場景視頻生成。

論文有兩位共同一作。汪晗陽,清華大學(xué)計算機系本科四年級,研究方向為三維視覺、生成模型,已在CVPR、ECCV、NeurIPS等會議發(fā)表論文。劉芳甫,清華大學(xué)電子工程系直博二年級,研究方向為生成模型 (3D AIGC和Video Generation等),已在CVPR、ECCV、NeurIPS、ICLR、KDD等計算機視覺與人工智能頂會發(fā)表過多篇論文。

圖片

從視頻到 3D 的橋梁:VideoScene 一步到位

隨著 VR/AR、游戲娛樂、自動駕駛等領(lǐng)域?qū)?3D 場景生成的需求不斷攀升,從稀疏視角重建 3D 場景已成為一大熱點課題。但傳統(tǒng)方法往往需要大量圖片、繁瑣的多步迭代,既費時又難以保證高質(zhì)量的 3D 結(jié)構(gòu)重建。

來自清華大學(xué)的研究團隊首次提出 VideoScene:一款 “一步式” 視頻擴散模型,專注于 3D 場景視頻生成。它利用了 3D-aware leap flow distillation 策略,通過跳躍式跨越冗余降噪步驟,極大地加速了推理過程,同時結(jié)合動態(tài)降噪策略,實現(xiàn)了對 3D 先驗信息的充分利用,從而在保證高質(zhì)量的同時大幅提升生成效率。

圖片


  • 論文標題:VideoScene:Distilling Video Diffusion Model to Generate 3D Scenes in One Step
  • 論文地址: https://arxiv.org/abs/2504.01956 
  • 項目主頁: https://hanyang-21.github.io/VideoScene 
  • Github 倉庫: https://github.com/hanyang-21/VideoScene

稀疏視角重建方法挑戰(zhàn)

在稀疏視角重建領(lǐng)域,從少量圖像中精準恢復(fù) 3D 場景是個極具挑戰(zhàn)性的難題。傳統(tǒng)方法依賴多視角圖像間的匹配與幾何計算 ,但當(dāng)視角稀疏時,匹配點不足、幾何約束缺失,使得重建的 3D 模型充滿瑕疵,像物體結(jié)構(gòu)扭曲、空洞出現(xiàn)等。

為突破這一困境,一些前沿方法另辟蹊徑,像 ReconX 就創(chuàng)新性地借助視頻生成模型強大的生成能力,把重建問題與生成問題有機結(jié)合。它將稀疏視角圖像構(gòu)建成全局點云,編碼為 3D 結(jié)構(gòu)條件,引導(dǎo)視頻擴散模型生成具有 3D 一致性的視頻幀,再基于這些幀重建 3D 場景,在一定程度上緩解了稀疏視角重建的不適定問題。

不過,當(dāng)前大多數(shù) video to 3D 工具仍存在效率低下的問題。一方面,生成的 3D 視頻質(zhì)量欠佳,難以生成三維結(jié)構(gòu)穩(wěn)定、細節(jié)豐富、時空連貫的視頻。在處理復(fù)雜場景時,模型容易出現(xiàn)物體漂移、結(jié)構(gòu)坍塌等問題,導(dǎo)致生成的 3D 視頻實用性大打折扣。另一方面,基于擴散模型的視頻生成通常需要多步降噪過程,每一步都涉及大量計算,不僅耗時久,還帶來高昂的計算開銷,限制了其在實際場景中的應(yīng)用。

繼承與超越:ReconX 理念的進化

此前研究團隊提出 video-to-3D 的稀釋視角重建方法 ReconX,核心在于將 3D 結(jié)構(gòu)指導(dǎo)融入視頻擴散模型的條件空間,以此生成 3D 一致的幀,進而重建 3D 場景。它通過構(gòu)建全局點云并編碼為 3D 結(jié)構(gòu)條件,引導(dǎo)視頻擴散模型工作 ,在一定程度上解決了稀疏視角重建中 3D 一致性的問題。

VideoScene 繼承了 ReconX 將 3D 結(jié)構(gòu)與視頻擴散相結(jié)合的理念,并在此基礎(chǔ)上實現(xiàn)了重大改進,堪稱 ReconX 的 “turbo 版本”。

在 3D 結(jié)構(gòu)指導(dǎo)方面,VideoScene 通過獨特的 3D 躍遷流蒸餾策略,巧妙地跳過了傳統(tǒng)擴散模型中耗時且冗余的步驟,直接從含有豐富 3D 信息的粗略場景渲染視頻開始,加速了整個擴散過程。同時也使得 3D 結(jié)構(gòu)信息能更準確地融入視頻擴散過程。在生成視頻幀時,VideoScene 引入了更強大的動態(tài)降噪策略,不僅僅依賴于固定的降噪模式,而是根據(jù)視頻內(nèi)容的動態(tài)變化實時調(diào)整降噪?yún)?shù),從而既保證了生成視頻的高質(zhì)量,又極大地提高了效率。

圖片

研究團隊提出的 VideoScene 方法流程圖

實驗結(jié)果

通過在多個真實世界數(shù)據(jù)集上的大量實驗,VideoScene 展示出了卓越的性能。它不僅在生成速度上遠超現(xiàn)有的視頻擴散模型,而且在生成質(zhì)量上也毫不遜色,甚至在某些情況下還能達到更好的效果。這意味著 VideoScene 有望成為未來視頻到 3D 應(yīng)用中的一個重要工具。在實時游戲、自動駕駛等需要高效 3D 重建的領(lǐng)域,有潛力能發(fā)揮巨大的作用。

圖片

VideoScene 單步生成結(jié)果優(yōu)于 baseline 模型 50 步生成結(jié)果

圖片

視頻擴散模型在不同去噪步數(shù)下的表現(xiàn)

如果你對 VideoScene 感興趣,想要深入了解它的技術(shù)細節(jié)和實驗結(jié)果,可訪問論文原文、項目主頁和 GitHub 倉庫。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-04-28 09:35:00

2025-05-12 09:31:44

2019-12-16 09:33:08

浪潮

2015-04-23 10:30:42

華為

2017-09-04 16:49:25

2022-07-29 09:03:17

AIOPS運維工具

2021-01-14 18:53:06

物聯(lián)網(wǎng)消防智慧

2025-02-20 08:45:41

V3GPU資源

2022-07-26 07:35:30

數(shù)據(jù)庫HTAP系統(tǒng)

2015-12-11 10:46:01

2020-03-02 10:50:41

曙光

2020-11-27 15:42:14

華為應(yīng)用開發(fā)者

2016-06-17 09:42:40

2017-02-21 13:30:42

數(shù)據(jù)網(wǎng)絡(luò)終端

2017-02-21 12:30:21

數(shù)據(jù)中心智能終端網(wǎng)絡(luò)

2011-12-25 20:54:57

移動支付

2012-09-24 15:07:09

云ERP恩信科技云應(yīng)用

2022-04-19 08:09:11

PON光纖網(wǎng)絡(luò)
點贊
收藏

51CTO技術(shù)棧公眾號