自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="ybhgp"><i id="ybhgp"></i></blockquote>}

<style id="ybhgp"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

CVPR 2025 HighLight｜打通視頻到3D的最后一公里，清華團隊推出一鍵式視頻擴散模型VideoScene

作者：機器之心 2025-04-09 13:11:27

人工智能新聞

來自清華大學(xué)的研究團隊首次提出 VideoScene：一款 “一步式” 視頻擴散模型，專注于 3D 場景視頻生成。

論文有兩位共同一作。汪晗陽，清華大學(xué)計算機系本科四年級，研究方向為三維視覺、生成模型，已在CVPR、ECCV、NeurIPS等會議發(fā)表論文。劉芳甫，清華大學(xué)電子工程系直博二年級，研究方向為生成模型 (3D AIGC和Video Generation等)，已在CVPR、ECCV、NeurIPS、ICLR、KDD等計算機視覺與人工智能頂會發(fā)表過多篇論文。

從視頻到 3D 的橋梁：VideoScene 一步到位

隨著 VR/AR、游戲娛樂、自動駕駛等領(lǐng)域?qū)?3D 場景生成的需求不斷攀升，從稀疏視角重建 3D 場景已成為一大熱點課題。但傳統(tǒng)方法往往需要大量圖片、繁瑣的多步迭代，既費時又難以保證高質(zhì)量的 3D 結(jié)構(gòu)重建。

來自清華大學(xué)的研究團隊首次提出 VideoScene：一款 “一步式” 視頻擴散模型，專注于 3D 場景視頻生成。它利用了 3D-aware leap flow distillation 策略，通過跳躍式跨越冗余降噪步驟，極大地加速了推理過程，同時結(jié)合動態(tài)降噪策略，實現(xiàn)了對 3D 先驗信息的充分利用，從而在保證高質(zhì)量的同時大幅提升生成效率。

論文標題：VideoScene：Distilling Video Diffusion Model to Generate 3D Scenes in One Step
論文地址: https://arxiv.org/abs/2504.01956
項目主頁: https://hanyang-21.github.io/VideoScene
Github 倉庫: https://github.com/hanyang-21/VideoScene

稀疏視角重建方法挑戰(zhàn)

在稀疏視角重建領(lǐng)域，從少量圖像中精準恢復(fù) 3D 場景是個極具挑戰(zhàn)性的難題。傳統(tǒng)方法依賴多視角圖像間的匹配與幾何計算，但當(dāng)視角稀疏時，匹配點不足、幾何約束缺失，使得重建的 3D 模型充滿瑕疵，像物體結(jié)構(gòu)扭曲、空洞出現(xiàn)等。

為突破這一困境，一些前沿方法另辟蹊徑，像 ReconX 就創(chuàng)新性地借助視頻生成模型強大的生成能力，把重建問題與生成問題有機結(jié)合。它將稀疏視角圖像構(gòu)建成全局點云，編碼為 3D 結(jié)構(gòu)條件，引導(dǎo)視頻擴散模型生成具有 3D 一致性的視頻幀，再基于這些幀重建 3D 場景，在一定程度上緩解了稀疏視角重建的不適定問題。

不過，當(dāng)前大多數(shù) video to 3D 工具仍存在效率低下的問題。一方面，生成的 3D 視頻質(zhì)量欠佳，難以生成三維結(jié)構(gòu)穩(wěn)定、細節(jié)豐富、時空連貫的視頻。在處理復(fù)雜場景時，模型容易出現(xiàn)物體漂移、結(jié)構(gòu)坍塌等問題，導(dǎo)致生成的 3D 視頻實用性大打折扣。另一方面，基于擴散模型的視頻生成通常需要多步降噪過程，每一步都涉及大量計算，不僅耗時久，還帶來高昂的計算開銷，限制了其在實際場景中的應(yīng)用。

繼承與超越：ReconX 理念的進化

此前研究團隊提出 video-to-3D 的稀釋視角重建方法 ReconX，核心在于將 3D 結(jié)構(gòu)指導(dǎo)融入視頻擴散模型的條件空間，以此生成 3D 一致的幀，進而重建 3D 場景。它通過構(gòu)建全局點云并編碼為 3D 結(jié)構(gòu)條件，引導(dǎo)視頻擴散模型工作，在一定程度上解決了稀疏視角重建中 3D 一致性的問題。

VideoScene 繼承了 ReconX 將 3D 結(jié)構(gòu)與視頻擴散相結(jié)合的理念，并在此基礎(chǔ)上實現(xiàn)了重大改進，堪稱 ReconX 的 “turbo 版本”。

在 3D 結(jié)構(gòu)指導(dǎo)方面，VideoScene 通過獨特的 3D 躍遷流蒸餾策略，巧妙地跳過了傳統(tǒng)擴散模型中耗時且冗余的步驟，直接從含有豐富 3D 信息的粗略場景渲染視頻開始，加速了整個擴散過程。同時也使得 3D 結(jié)構(gòu)信息能更準確地融入視頻擴散過程。在生成視頻幀時，VideoScene 引入了更強大的動態(tài)降噪策略，不僅僅依賴于固定的降噪模式，而是根據(jù)視頻內(nèi)容的動態(tài)變化實時調(diào)整降噪?yún)?shù)，從而既保證了生成視頻的高質(zhì)量，又極大地提高了效率。

研究團隊提出的 VideoScene 方法流程圖

實驗結(jié)果

通過在多個真實世界數(shù)據(jù)集上的大量實驗，VideoScene 展示出了卓越的性能。它不僅在生成速度上遠超現(xiàn)有的視頻擴散模型，而且在生成質(zhì)量上也毫不遜色，甚至在某些情況下還能達到更好的效果。這意味著 VideoScene 有望成為未來視頻到 3D 應(yīng)用中的一個重要工具。在實時游戲、自動駕駛等需要高效 3D 重建的領(lǐng)域，有潛力能發(fā)揮巨大的作用。

VideoScene 單步生成結(jié)果優(yōu)于 baseline 模型 50 步生成結(jié)果

視頻擴散模型在不同去噪步數(shù)下的表現(xiàn)

如果你對 VideoScene 感興趣，想要深入了解它的技術(shù)細節(jié)和實驗結(jié)果，可訪問論文原文、項目主頁和 GitHub 倉庫。

責(zé)任編輯：張燕妮來源：機器之心

3D 視頻生成

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="tqhps"><track id="tqhps"></track></legend>

<style id="tqhps"></style>