自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷

發(fā)布于 2024-12-23 10:19
瀏覽
0收藏

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2412.15214

項目鏈接:https://ppetrichor.github.io/levitor.github.io/

亮點直擊

  • LeviTor,一種通過結(jié)合深度信息和K-means聚類點來控制視頻合成中3D物體軌跡的新方法,無需顯式的3D軌跡跟蹤。
  • 利用高質(zhì)量的SAV數(shù)據(jù)集進(jìn)行訓(xùn)練,有效捕捉了多樣場景中復(fù)雜的物體運動和交互。
  • 開發(fā)了一個用戶友好的推理 pipeline,簡化了3D軌跡的輸入,使其對更廣泛的用戶群體更加易用。
  • 首次在圖像到視頻合成中引入了3D物體軌跡控制,為更先進(jìn)和易于使用的視頻生成技術(shù)鋪平了道路。

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

總結(jié)速覽

解決的問題

  • 現(xiàn)有的2D空間拖拽方法在處理平面外運動時存在歧義,無法有效控制圖像到視頻合成中的物體軌跡。

提出的方案

  • 引入深度維度,增強(qiáng)基于拖拽的交互方式,使用戶能夠為軌跡上的每個點指定相對深度,從而實現(xiàn)3D空間中的軌跡控制。
  • 將物體mask抽象為幾個聚類點,并結(jié)合深度信息和實例信息,將這些信息作為控制信號輸入到視頻擴(kuò)散模型中。

應(yīng)用的技術(shù)

  • LeviTor方法:結(jié)合深度信息和K-means聚類點進(jìn)行3D物體軌跡控制。
  • 使用高質(zhì)量的SAV數(shù)據(jù)集進(jìn)行模型訓(xùn)練,以捕捉復(fù)雜的物體運動和交互。
  • 開發(fā)用戶友好的推理 pipeline ,簡化3D軌跡的輸入過程。

達(dá)到的效果

  • LeviTor能夠在從靜態(tài)圖像生成照片級逼真視頻時,精確操控物體運動。
  • 拓寬了創(chuàng)意應(yīng)用的范圍,使3D軌跡控制更加易于使用,適用于更廣泛的用戶群體。
  • 首次在圖像到視頻合成中實現(xiàn)了3D物體軌跡控制,為更先進(jìn)和易用的視頻生成技術(shù)鋪平了道路。

方法

問題表述

為了學(xué)習(xí)真實的物體運動,訓(xùn)練數(shù)據(jù)集應(yīng)包含具有準(zhǔn)確物體運動的高質(zhì)量視頻。然而,現(xiàn)有提供3D運動軌跡的數(shù)據(jù)集要么規(guī)模有限,要么僅由合成數(shù)據(jù)組成。視頻對象分割(VOS)數(shù)據(jù)集,特別是最近發(fā)布的SAM2,提供了高質(zhì)量的視頻和精確的物體mask標(biāo)注,使其成為我們目的的適當(dāng)選擇。然而,仍然存在兩個主要挑戰(zhàn):

  • 數(shù)據(jù)集中缺乏明確的3D軌跡信息,而這是訓(xùn)練模型理解和合成3D運動所必需的。因此,需要隱式表達(dá)數(shù)據(jù)中包含的3D運動信息。
  • 提供的mask標(biāo)注對于實際用戶輸入來說過于詳細(xì),因為不能期望用戶提供如此細(xì)致的mask或密集的3D軌跡進(jìn)行控制。因此,有必要設(shè)計一種用戶易于輸入的3D軌跡表示方法。

為了解決這些問題,建議使用從物體mask中提取的K-means點及其深度信息作為控制信號。具體來說,對mask的像素應(yīng)用K-means聚類,以獲得一組代表性的控制點:

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

這種表示方式允許用戶通過簡單地在二維圖像上選擇點并根據(jù)需要調(diào)整深度值來高效地指定三維軌跡。因此,按照下文中的描述設(shè)計了訓(xùn)練和推理流程。

訓(xùn)練 Pipeline

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

接著,使用 DepthAnythingV2來估計每幀的相對深度。因此,我們可以將深度值分配給相應(yīng)的二維坐標(biāo)軌跡,從而獲得三維軌跡。最后,我們用高斯熱圖表示二維軌跡,并將軌跡、實例點和深度點連接在一起,作為控制信號。這一信號通過 ControlNet注入到穩(wěn)定視頻擴(kuò)散(SVD)中,以生成與三維軌跡對齊的視頻。我們的控制信號生成過程如下圖 3 所示。

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

訓(xùn)練過程可以表示為:

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

推理 Pipeline

設(shè)計了一個用戶友好的交互系統(tǒng)用于推理,其概覽如下圖4所示。以圖像作為輸入,系統(tǒng)首先使用DepthAnythingV2和SAM自動從圖像中提取深度信息和物體mask。然后,用戶可以利用檢索面板通過簡單點擊圖像來選擇要移動的物體mask。他們還可以自動獲取點擊點的相對深度值。之后,用戶可以使用交互面板點擊更多點以形成物體軌跡。同時,用戶可以參考先前獲得的點擊位置的相對深度值,根據(jù)需要輸入軌跡內(nèi)點的深度信息,從而提供相應(yīng)的三維軌跡。

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

對于用戶提供的稀疏三維軌跡和選定的mask作為輸入,需要將其轉(zhuǎn)換為相應(yīng)的多點控制信息。這是因為要求用戶輸入符合物理規(guī)律的多點軌跡以表示正確的遮擋和深度變化是困難的。通常,他們只輸入單一軌跡以指示物體的移動。因此,需要這種轉(zhuǎn)換以通過控制點的聚集或分散來表示物體的三維運動。通過生成三維渲染的物體mask,然后使用K-means選擇控制點來實現(xiàn)這一點,如下圖5所示。

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

具體來說,首先將起始圖像中像素的二維坐標(biāo)與它們的深度值結(jié)合,以獲得三維空間點,表示為 ,其中n表示選定mask中的像素數(shù)。然后我們將這些點轉(zhuǎn)換到相機(jī)坐標(biāo)系中。我們假設(shè)所有相機(jī)的內(nèi)參都相同且相機(jī)保持靜止,因此旋轉(zhuǎn)矩陣是單位矩陣。轉(zhuǎn)換的第一步是將二維像素點及其深度值轉(zhuǎn)換到相機(jī)坐標(biāo)系中,并在這個轉(zhuǎn)換后的三維空間中移動屬于用戶選定mask的點。

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

通過這種方式,僅通過用戶輸入的稀疏軌跡來表示物體的移動、遮擋以及由于前后移動導(dǎo)致的尺寸變化。同時,從三維空間渲染到二維的mask變化也完全遵循物理定律。通過將點映射到三維空間,然后再渲染回二維mask圖像,將稀疏的用戶控制轉(zhuǎn)換為密集的mask表示。這些mask可以準(zhǔn)確反映物體的移動和遮擋。接下來,基于渲染得到的mask使用 K-means 計算聚類中心。結(jié)合用戶指定的深度變化,推導(dǎo)出適當(dāng)數(shù)量的控制軌跡,以使用LeviTor 生成最終視頻。進(jìn)一步使用 K-means 選擇控制點是必要的,因為三維空間中的移動過程無法表示非剛性變換。如果直接使用密集mask進(jìn)行控制,只會導(dǎo)致物體的簡單平移,如下圖 8 所示。通過將mask轉(zhuǎn)換為適量的軌跡控制信號,生成模型能夠捕捉物體的運動變化,同時還添加一些非剛性運動的細(xì)節(jié)。

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

實驗

實驗設(shè)置

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

數(shù)據(jù)集。 為了訓(xùn)練,使用高質(zhì)量的視頻對象分割(VOS)數(shù)據(jù)集 Segment Anything Video (SA-V) ,該數(shù)據(jù)集包含 51K 個多樣化的視頻和 643K 個高質(zhì)量時空分割mask。在 DAVIS 數(shù)據(jù)集上進(jìn)行評估,并將視頻分割為 16 幀的剪輯進(jìn)行測試。受 DragAnything 的啟發(fā),對起始幀中每個物體的mask應(yīng)用 K-means,以在每個mask區(qū)域選擇 K 個點作為控制點。然后,使用 Co-Tracker 跟蹤這些控制點,以生成相應(yīng)的點軌跡作為真實值。


指標(biāo)。 根據(jù) [45, 47],采用 Frechet 視頻距離(FVD) 來衡量視頻質(zhì)量,并使用 Frechet Inception 距離 (FID) 評估圖像質(zhì)量。對于運動可控性評估,利用 ObjMC ,其計算生成軌跡與預(yù)定義軌跡之間的歐氏距離。生成視頻的軌跡是使用 Co-Tracker 提取的。

與其他方法對比

將我們的方法與DragNUWA和DragAnything進(jìn)行比較,這兩者能夠在給定圖像上實現(xiàn)運動控制,并且其代碼是公開可用的。進(jìn)行了定性和定量比較。

定性比較。在定性分析中,重點驗證了在視頻生成中引入3D軌跡的重要作用,包括以下三個方面:

  • 物體之間相互遮擋的控制;
  • 更好地控制物體相對于鏡頭的前后運動;
  • 復(fù)雜運動(如軌道運動)的實現(xiàn)。

定性比較結(jié)果如下圖6所示,向所有模型輸入相同的2D控制軌跡。圖像的前兩行展示了遮擋控制的驗證結(jié)果。在這種情況下,為LeviTor提供了不同的深度變化:第一行的深度從遠(yuǎn)到近變化,而第二行的深度僅靠近,但沒有比街邊建筑更靠近鏡頭。生成的結(jié)果完美地符合我們的要求,龍卷風(fēng)從遠(yuǎn)到近逐漸變大。同時,第一行的龍卷風(fēng)從建筑物前方掃過,而第二行則從建筑物后方經(jīng)過。相比之下,其他兩種方法只能通過2D軌跡控制生成。可以觀察到,DragAnything誤將龍卷風(fēng)的運動解釋為鏡頭的前進(jìn)運動,導(dǎo)致輸出模糊。而DragNUWA雖然正確理解了龍卷風(fēng)需要移動,但由于缺乏對深度變化的考慮,龍卷風(fēng)的大小在移動后幾乎沒有變化,這不符合物理規(guī)律。

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

關(guān)于物體相對于鏡頭的前后運動控制的評估結(jié)果如上圖6左下角所示。顯然,2D軌跡無法提供深度信息,因此DragAnything和DragNUWA只能模擬符合該軌跡的行星運動,導(dǎo)致視頻模糊且不確定。相比之下,LeviTor可以根據(jù)用戶指定的輸入生成準(zhǔn)確清晰的兩個行星的運動,同時符合物理規(guī)律。基于用戶輸入的信息,可以推導(dǎo)出3D軌跡來控制物體的運動,代表用戶期望的物體遮擋和大小變化。此外,我們可以模擬更復(fù)雜的運動,如物體繞行。上圖6右下角展示了一個例子,我們的模型能夠準(zhǔn)確模擬一個黑色碗繞著花瓶旋轉(zhuǎn)的情況,并正確處理遮擋關(guān)系。而DragAnything無法直接解釋2D軌跡以實現(xiàn)我們期望的旋轉(zhuǎn)效果,僅生成一個碗從右向左移動然后返回的視頻。在此過程中,碗還出現(xiàn)了變形和模糊。

DragNUWA則將此2D輸入視為鏡頭軌跡,生成的視頻顯示一個靜止的桌子和碗從不同角度拍攝。


定性比較結(jié)果表明,通過引入用戶易于輸入的3D軌跡控制,LeviTor能夠更好地管理物體的距離變化。它可以生成僅憑2D軌跡無法實現(xiàn)的視頻效果,例如控制物體遮擋和執(zhí)行繞軌等復(fù)雜運動。此外,由于我們的流程中包含了SAM自動提取的所有物體mask,LeviTor確保只有用戶選擇的物體可以移動。這防止了將物體運動誤解為攝像機(jī)運動。攝像機(jī)運動可以通過移動選定背景的mask來實現(xiàn)(如下圖7所示)。

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

定量比較。 在兩種輸入設(shè)置下評估定量結(jié)果:單點(Single-Point)和多點(Multi-Points)。單點設(shè)置與之前工作的評估一致,這意味著每個mask只選擇一個點軌跡作為生成視頻的條件。然而,如上文所述,單一的點軌跡無法表示物體相對于鏡頭的前后運動或遮擋。因此,還在多點設(shè)置下進(jìn)行評估,在每個mask中選擇最多8個點并使用其軌跡作為條件。下表1顯示了我們的方法在DAVIS數(shù)據(jù)集上與基線的定量比較結(jié)果。

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

在使用相同的SVD作為基礎(chǔ)模型的情況下,由于考慮了3D軌跡并在高質(zhì)量的VOS數(shù)據(jù)集SA-V上進(jìn)行訓(xùn)練,我們的方法在FID和FVD指標(biāo)上取得了顯著優(yōu)勢。此外,增加控制軌跡的數(shù)量可以有效地提升DragNUWA和我們的方法。這表明考慮物體隨時間的大小變化和遮擋是有效的。DragAnything使用單一軌跡和第一幀中的物體mask語義信息進(jìn)行訓(xùn)練,因此增加軌跡數(shù)量與訓(xùn)練不匹配,改進(jìn)有限。LeviTor在ObjMC指標(biāo)上表現(xiàn)不如DragNUWA,將其歸因于沒有使用跟蹤方法來獲得完整的點軌跡,并要求生成的視頻完美匹配這些軌跡。相反,直接提取每幀中所有mask的K-means聚類中心作為控制信號,更加注重物體的整體運動和時間變化。

消融研究

在本節(jié)中,進(jìn)行消融實驗以研究深度點、實例信息以及推理時控制點數(shù)量如何影響我們在多點設(shè)置下的合成結(jié)果。

深度和實例信息。 下表2展示了在沒有深度或?qū)ο髮嵗斎氲那闆r下訓(xùn)練LeviTor的結(jié)果,表明深度和實例信息都有助于模型學(xué)習(xí)。相比深度信息,對象實例更為重要,因為它代表了與不同控制點對應(yīng)的對象。缺少此信息時,模型容易混淆不同對象的控制點,導(dǎo)致模糊和不現(xiàn)實的結(jié)果。對象的深度信息在某種程度上隱含在點的聚集程度中,因此其影響相對較小。還在上圖7中展示了定性消融結(jié)果,表明缺乏實例或深度信息時,模型容易混淆對象之間的遮擋關(guān)系,導(dǎo)致模糊和不現(xiàn)實的生成結(jié)果。具體來說,沒有對象實例信息時,模型將不屬于自身的控制點估計為自身的,導(dǎo)致例如劍與人融合或劍變形的現(xiàn)象。沒有深度信息時,模型在基于控制點填充對象時會混淆前后關(guān)系,導(dǎo)致劍的主體消失但劍尖穿過人頭的情況。

彌補(bǔ)2D拖拽缺陷!南大&螞蟻等重磅開源LeviTor:首次引入3D目標(biāo)軌跡控制,效果驚艷-AI.x社區(qū)

推理時的控制點數(shù)量。 在推理過程中,我們的模型可以選擇不同數(shù)量的控制點,以在運動幅度和生成質(zhì)量之間取得平衡。上圖8展示了一個示例,我們通過乘以一個比例來評估不同數(shù)量的控制點對生成結(jié)果的影響。可以看到,當(dāng)控制點較少時,生成結(jié)果表現(xiàn)出顯著的運動幅度,但對象在運動過程中可能會出現(xiàn)一些變形或模糊。然而,過多的控制點可能會接近對象的遮罩。盡管將這些點作為控制點可確保對象形狀的合理性,但它阻止了模型生成其運動的結(jié)果。如上圖8的最后一行所示,小狗將直接從后面移動到前面。因此,用戶可以根據(jù)自己的需求調(diào)整控制點的數(shù)量,以實現(xiàn)所需的生成結(jié)果。

結(jié)論

LeviTor,一種用于在圖像到視頻合成中實現(xiàn)3D對象軌跡控制的新模型。通過將深度信息與K-means聚類點結(jié)合作為控制信號,方法在無需顯式3D軌跡估計的情況下捕獲了基本的3D屬性。用戶友好型推理 pipeline 允許用戶通過簡單地在2D圖像上繪制并調(diào)整點的深度來輸入3D軌跡,從而使合成過程更加易于訪問。對于未來的工作,計劃通過結(jié)合能夠捕捉可變形物體和復(fù)雜動態(tài)的更先進(jìn)的視頻基礎(chǔ)模型來擴(kuò)展我們的模型,以更好地處理非剛性運動。這一增強(qiáng)將擴(kuò)大方法的適用范圍。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/WiNVzrat3ISkNANU-QMZrQ??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦