自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LiDAR仿真新思路 | LidarDM:助力4D世界生成,仿真殺器~ 精華

發(fā)布于 2024-4-12 15:04
瀏覽
0收藏

原標(biāo)題:LidarDM: Generative LiDAR Simulation in a Generated World

論文鏈接:https://arxiv.org/pdf/2404.02903.pdf

代碼鏈接:https://github.com/vzyrianov/lidardm

作者單位:伊利諾伊大學(xué) 麻省理工學(xué)院

LiDAR仿真新思路 | LidarDM:助力4D世界生成,仿真殺器~-AI.x社區(qū)

論文思路:

本文提出了LidarDM,這是一種新穎的激光雷達(dá)生成模型,能夠產(chǎn)生逼真、布局感知(layout-aware)、物理上可信以及時(shí)間上連貫的激光雷達(dá)視頻。LidarDM在激光雷達(dá)生成建模方面具有兩個(gè)前所未有的能力:


(一)由駕駛場(chǎng)景引導(dǎo)的激光雷達(dá)生成,為自動(dòng)駕駛模擬提供了重大潛力;

(二)4D激光雷達(dá)點(diǎn)云生成,使得創(chuàng)建逼真且時(shí)間上連貫的序列成為可能。


本文模型的核心是一個(gè)新穎的綜合4D世界生成框架。具體來(lái)說(shuō),本文采用隱擴(kuò)散模型(latent diffusion models) 來(lái)生成3D場(chǎng)景,將其與動(dòng)態(tài)交通參與者(dynamic actors)結(jié)合,形成底層的4D世界,然后在這個(gè)虛擬環(huán)境中產(chǎn)生逼真的感知觀測(cè)數(shù)據(jù)。


本文的實(shí)驗(yàn)表明,本文的方法在逼真度、時(shí)間連貫性和布局一致性方面優(yōu)于競(jìng)爭(zhēng)算法。本文還展示了LidarDM可以作為生成世界模型仿真器,用于訓(xùn)練和測(cè)試感知模型。

網(wǎng)絡(luò)設(shè)計(jì):

生成模型在理解數(shù)據(jù)分布和內(nèi)容創(chuàng)作方面已經(jīng)變得引人注目,例如在圖像和視頻生成[10, 33, 52–55]、3D物體生成[10,19,38,52]、壓縮[5,29, 68]以及編輯[37,47]等領(lǐng)域。生成模型對(duì)于模擬[6, 11, 18, 34, 46, 60, 64, 66, 76, 82]也顯示出顯著的潛力,能夠創(chuàng)建逼真的場(chǎng)景及其相關(guān)的感知數(shù)據(jù),用于訓(xùn)練和評(píng)估安全關(guān)鍵的具身智能,如機(jī)器人和自動(dòng)駕駛車輛,無(wú)需昂貴的手工建?,F(xiàn)實(shí)世界。這些能力對(duì)于依賴廣泛閉環(huán)訓(xùn)練或場(chǎng)景測(cè)試的應(yīng)用至關(guān)重要。


盡管在條件圖像和視頻生成[15,27,35,44]方面的進(jìn)步非常顯著,但為自動(dòng)駕駛應(yīng)用生成特定場(chǎng)景下逼真的激光雷達(dá)點(diǎn)云序列的具體任務(wù)還未得到充分探索。目前的激光雷達(dá)生成方法主要分為兩大類,每一類都面臨著特定的挑戰(zhàn):


  1. 當(dāng)前的激光雷達(dá)生成建模方法[8, 72, 79, 83]僅限于單幀生成,并且沒(méi)有提供語(yǔ)義可控性和時(shí)間一致性的手段。
  2. 激光雷達(dá)重模擬(resimulation)[14, 17, 46, 65, 67, 74]嚴(yán)重依賴用戶創(chuàng)建或現(xiàn)實(shí)世界收集的資產(chǎn)。這增加了高昂的操作成本,限制了多樣性,并限制了更廣泛的應(yīng)用性。


為了應(yīng)對(duì)這些挑戰(zhàn),本文提出了 LidarDM(激光雷達(dá)擴(kuò)散模型),它能夠創(chuàng)造出逼真的、布局感知的、物理上可信的、以及時(shí)間上連貫的激光雷達(dá)視頻。本文探索了兩種以前未曾涉及的新穎能力:(i) 由駕駛場(chǎng)景引導(dǎo)的激光雷達(dá)合成,這對(duì)自動(dòng)駕駛仿真具有巨大潛力,以及 (ii) 旨在產(chǎn)生逼真且時(shí)間上連貫的有標(biāo)注的激光雷達(dá)點(diǎn)云序列的 4D 激光雷達(dá)點(diǎn)云合成。本文實(shí)現(xiàn)這些目標(biāo)的關(guān)鍵洞察在于首先生成和組合底層的 4D 世界,然后在這個(gè)虛擬環(huán)境中創(chuàng)造逼真的感知觀察。為了實(shí)現(xiàn)這一點(diǎn),本文整合了現(xiàn)有的 3D 物體生成方法來(lái)創(chuàng)建動(dòng)態(tài)交通參與者(dynamic actors),并開(kāi)發(fā)了一種基于隱擴(kuò)散模型(latent diffusion models) 的大規(guī)模 3D 場(chǎng)景生成的新方法。這種方法能夠從粗糙的語(yǔ)義布局產(chǎn)生逼真且多樣化的 3D 駕駛場(chǎng)景,據(jù)本文所知,這是首次嘗試。本文應(yīng)用軌跡生成來(lái)創(chuàng)造動(dòng)態(tài)效果,同時(shí)確保交通參與者(actors)之間以及交通參與者(actors)與場(chǎng)景之間的真實(shí)互動(dòng)。最后,本文在每個(gè)時(shí)間步驟組合 3D 世界,并執(zhí)行隨機(jī)光線投射模擬(stochastic raycasting simulation)以產(chǎn)生最終的 4D 激光雷達(dá)序列。如圖 1 所示,本文生成的結(jié)果多樣化,與布局條件對(duì)齊,既逼真又時(shí)間上連貫。


本文的實(shí)驗(yàn)結(jié)果表明,由 LidarDM 生成的單幀圖像展現(xiàn)出逼真性和多樣性,其性能與最先進(jìn)的無(wú)條件單幀激光雷達(dá)點(diǎn)云生成技術(shù)相當(dāng)。此外,本文展示了 LidarDM 能夠產(chǎn)生保持時(shí)間連貫性的激光雷達(dá)視頻,超越了穩(wěn)健的 stable diffusion 傳感器生成基線。據(jù)本文所知,這是第一個(gè)具備此能力的激光雷達(dá)生成方法。本文進(jìn)一步通過(guò)展示生成的激光雷達(dá)與真實(shí)激光雷達(dá)在匹配地圖條件下的良好吻合,來(lái)證明 LidarDM 的條件生成能力。最后,本文說(shuō)明了使用 LidarDM 生成的數(shù)據(jù)在用真實(shí)數(shù)據(jù)訓(xùn)練的感知模塊測(cè)試時(shí)展現(xiàn)出最小的域差距,并且還可以用來(lái)擴(kuò)展訓(xùn)練數(shù)據(jù),顯著提升 3D 檢測(cè)器的性能。這為使用生成的激光雷達(dá)模型創(chuàng)造逼真且可控的仿真環(huán)境以訓(xùn)練和測(cè)試駕駛模型提供了前提。

LiDAR仿真新思路 | LidarDM:助力4D世界生成,仿真殺器~-AI.x社區(qū)

圖 1:本文展示了 LidarDM,這是一個(gè)新穎的 4D 激光雷達(dá)生成模型。本文生成的激光雷達(dá)視頻同時(shí)具有逼真性、布局條件性、物理可信性、多樣性和時(shí)間連貫性的優(yōu)勢(shì)。

LiDAR仿真新思路 | LidarDM:助力4D世界生成,仿真殺器~-AI.x社區(qū)

圖 2:LidarDM 的應(yīng)用:(a) 在沒(méi)有 3D 捕捉或建模的情況下生成與地圖緊密對(duì)齊的激光雷達(dá)(彩色框突出顯示激光雷達(dá)與地圖之間的一致性);(b) 為現(xiàn)有的交通模擬器(Waymax [20])提供傳感器數(shù)據(jù),使其能夠僅從純傳感器數(shù)據(jù)評(píng)估安全關(guān)鍵場(chǎng)景;(c) 生成具有可控障礙物位置的大量激光雷達(dá)數(shù)據(jù)(被視為免費(fèi)獲得的真實(shí)標(biāo)簽),以通過(guò)無(wú)需昂貴數(shù)據(jù)捕捉和標(biāo)注的預(yù)訓(xùn)練改進(jìn)感知模型。

LiDAR仿真新思路 | LidarDM:助力4D世界生成,仿真殺器~-AI.x社區(qū)

圖 3:LidarDM 概覽:給定時(shí)間 t = 0 時(shí)的交通布局輸入,LidarDM 首先生成交通參與者(actors)和靜態(tài)場(chǎng)景。然后,本文生成交通參與者(actors)和自車的運(yùn)動(dòng),并構(gòu)建底層的 4D 世界。最后,使用基于生成和物理的仿真來(lái)創(chuàng)建逼真的 4D 傳感器數(shù)據(jù)。

LiDAR仿真新思路 | LidarDM:助力4D世界生成,仿真殺器~-AI.x社區(qū)

圖 4:本文的 3D 場(chǎng)景生成流程。首先,累積的點(diǎn)云被用于重建每個(gè)真實(shí)網(wǎng)格樣本。接下來(lái),訓(xùn)練一個(gè)變分自編碼器(VAE)將網(wǎng)格壓縮成隱式編碼。最后,訓(xùn)練一個(gè)以地圖為條件的擴(kuò)散模型,在 VAE 的隱空間內(nèi)進(jìn)行采樣,產(chǎn)生新的樣本。

LiDAR仿真新思路 | LidarDM:助力4D世界生成,仿真殺器~-AI.x社區(qū)

圖 5:用于感知噪聲模擬的隨機(jī)光線丟棄(raydrop)網(wǎng)絡(luò),進(jìn)一步增強(qiáng)了真實(shí)感。本文在上方的掩碼距離圖和掩碼激光雷達(dá)圖像中用紅色突出顯示了光線丟棄的(raydropped)點(diǎn)。

實(shí)驗(yàn)結(jié)果:

LiDAR仿真新思路 | LidarDM:助力4D世界生成,仿真殺器~-AI.x社區(qū)

圖 6:真實(shí)的 KITTI-360 樣本與來(lái)自競(jìng)爭(zhēng)方法的無(wú)條件樣本對(duì)比。UltraLiDAR 樣本可視化直接從它們的論文中獲取。與之前的方法相比,LidarDM 生成的樣本具有更多數(shù)量、更詳細(xì)的顯著物體(例如,汽車、行人)、更清晰的 3D 結(jié)構(gòu)(例如,直墻)以及更逼真的道路布局。

LiDAR仿真新思路 | LidarDM:助力4D世界生成,仿真殺器~-AI.x社區(qū)

圖 7:在 2 Waymax [20] 地圖序列上進(jìn)行的以地圖為條件的序列生成的定性結(jié)果。本文還展示了相應(yīng)的累積點(diǎn)云,以突出 LidarDM 的時(shí)序一致性。

LiDAR仿真新思路 | LidarDM:助力4D世界生成,仿真殺器~-AI.x社區(qū)

LiDAR仿真新思路 | LidarDM:助力4D世界生成,仿真殺器~-AI.x社區(qū)

LiDAR仿真新思路 | LidarDM:助力4D世界生成,仿真殺器~-AI.x社區(qū)

LiDAR仿真新思路 | LidarDM:助力4D世界生成,仿真殺器~-AI.x社區(qū)

總結(jié):

本文提出了 LidarDM,這是一個(gè)新穎的基于布局條件的隱擴(kuò)散模型(latent diffusion models) ,用于生成逼真的激光雷達(dá)點(diǎn)云。本文的方法將問(wèn)題框定為一個(gè)聯(lián)合的 4D 世界創(chuàng)建和感知數(shù)據(jù)生成任務(wù),并開(kāi)發(fā)了一個(gè)新穎的隱擴(kuò)散模型(latent diffusion models) 來(lái)創(chuàng)建 3D 場(chǎng)景。由此產(chǎn)生的點(diǎn)云視頻是真實(shí)的、連貫的,并且具有布局感知(layout-aware)能力。


本文轉(zhuǎn)自自動(dòng)駕駛之心,作者:自動(dòng)駕駛之心


原文鏈接:??https://mp.weixin.qq.com/s/ewzafd37torvKJ4qR_MktA??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦