自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

2024年了,視頻生成模型離通用世界模擬器還有多大差距?SOTA模型全面評估

發(fā)布于 2024-10-17 10:43
瀏覽
0收藏

2024年了,視頻生成模型離通用世界模擬器還有多大差距?SOTA模型全面評估-AI.x社區(qū)

文章鏈接: https://arxiv.org/pdf/2410.05363
項目鏈接: https://phygenbench123.github.io/
數據&代碼:https://github.com/OpenGVLab/PhyGenBench

亮點直擊

  • 提出了PhyGenBench,它涵蓋了廣泛的明確物理現象和明確的物理定律。該基準可以全面衡量 T2V 模型是否理解直觀物理學,并間接評估它們與世界模擬器能力之間的差距。
  • 提出了一個自動化評估框架PhyGenEval,克服了使用其他指標評估物理常識正確性的問題,并且在PhyGenBench上表現出與人類反饋高度一致的效果,使用戶能夠對各種 T2V 模型進行大規(guī)模自動化測試。
  • 對流行的 T2V 模型進行了廣泛評估,甚至表現最好的模型Gen-3僅得分0.51。這表明當前的模型離成為世界模擬器的目標還有很大差距。根據評估結果,進行了深入分析,發(fā)現解決諸如動態(tài)等問題通過提示工程或簡單地擴大模型規(guī)模仍然具有挑戰(zhàn)性。

2024年了,視頻生成模型離通用世界模擬器還有多大差距?SOTA模型全面評估-AI.x社區(qū)

總結速覽

解決的問題: 當前的文本生成視頻(T2V)模型在可視化復雜提示詞方面取得了顯著進展,但在直觀物理學的準確表示能力上仍缺乏深入探索,限制了其成為通用世界模擬器的潛力。


提出的方案: 為了彌補這一不足,本文提出了一個名為 PhyGenBench 的物理生成基準,用于評估T2V生成中物理常識的正確性。該基準包含160個精心設計的提示,涵蓋27個不同的物理定律,跨越四大基本領域,全面評估模型對物理常識的理解。


應用的技術: 本文還提出了一個新穎的評估框架 PhyGenEval,采用層次化評估結構,結合先進的視覺-語言模型和大語言模型,對物理常識進行評估,從而實現大規(guī)模自動化評估。


達到的效果: 通過 PhyGenBench 和 PhyGenEval,研究結果表明現有模型在生成符合物理常識的視頻方面存在挑戰(zhàn),簡單地擴大模型規(guī)?;蚴褂锰崾竟こ碳夹g無法完全解決這些問題。希望這項研究能夠激勵社區(qū)在模型開發(fā)中優(yōu)先考慮物理常識的學習。

動機

認知心理學家認為實現世界模擬器的重要一步是使得模型具備intuitive physics概念,這是一個即使是人類嬰兒都會具有的直覺,其不需要依賴準確的物理定律表達式,而是依賴人類自身的感受進行判斷。然而我們發(fā)現經過大量資源進行訓練的video generation model,即使是最先進的模型(比如Kling,Gen-3),也幾乎不具備這種intuitive physics,凸顯了其與world simualtor的巨大距離。


目前的video generation benchmark大多忽視了對于這一點的evaluation以及analysis,所以我們提出PhyGenBench以及PhyGenEval,進行自動化的模型evaluation。

PhyGenBench

受 (Swartz, 1985) 的啟發(fā),首先定義以下術語:“物理常識”:對日常生活中物體和動作行為的基本直觀理解;“物理定律”:描述自然中一致行為的普遍科學原則;“物理現象”:由物理定律的相互作用引起的可觀察事件或過程。PhyGenBench 的目的是評估 T2V 模型是否理解物理常識,而 PhyGenBench 中的每個提示都展示了一個明確的物理現象及其背后的物理定律。


概述。如下圖 2(a) 所示,PhyGenBench 包含四個主要類別的物理常識:“力學”、“光學”、“熱學”和“物質性質”。它涵蓋了 27 個物理現象,并通過相應設計的 160 個提示反映了內在的物理定律:

2024年了,視頻生成模型離通用世界模擬器還有多大差距?SOTA模型全面評估-AI.x社區(qū)

  1. “力學”涵蓋了 7 個常見的機械定律:重力、浮力、固體壓力、大氣壓力、彈性、摩擦力和表面張力,共有 40 個驗證提示。例如,我們使用“將一塊鐵輕輕放在盛滿水的水箱表面”來測試 T2V 模型對浮力的理解,其中鐵由于其比水密度更高而應下沉。
  2. “光學”根據光現象分為 6 個方面:反射、折射、散射、色散、干涉和衍射以及直線傳播,共產生 50 個提示。像“風箏在光滑寧靜的池塘上空翱翔”這樣的提示用于測試反射生成能力。
  3. “熱學”考慮了 6 種相變:凝固、熔化、液化、沸騰、沉積和升華,共 30 個提示。受 ChronoMagicBench啟發(fā),沸騰過程通過提示“水在溫度迅速上升至100°C以上時的變換時間推移”進行評估。
  4. “物質性質”包括 5 個物理性質(顏色、硬度、溶解性、可燃性和火焰反應)和 3 個化學性質(酸性、氧化還原電位和脫水性),產生了 40 個提示。通過現象反映物質性質,例如,“硬度”通過“一個雞蛋以巨大力量被投向一塊巖石”的提示表現出來,雞蛋應該碎裂,而巖石保持完整。


一個提示中可能包含多個物理定律,這甚至會使人類標注者在評估視頻生成中的物理常識時感到困惑。為避免這種情況,我們精心策劃了提示,以確保每個提示僅反映一個物理現象,并包含明確的物理定律。通過結合四個不同物理類別中的物理定律,PhyGenBench 提供了對當前 T2V 模型物理常識理解的全面評估。


基準構建。如前面圖 2(b) 所示,我們開發(fā)了一個綜合方法來創(chuàng)建 PhyGenBench。該方法包括五個步驟:

  1. 概念化:根據 (Halliday et al., 2013),我們首先從物理學的四個主要類別中確定關鍵的物理常識。對于每個類別,我們從教科書 (Harjono et al., 2020) 中選擇具體的物理定律,這些定律廣為人知,且可以通過清晰、可觀察的物理現象輕松演示。
  2. 提示工程:對于每個物理定律,我們手動設計了初始的 T2V 提示,清晰描述了其背后的物理現象。
  3. 提示增強:為了增強模型的視頻生成能力,我們通過增加更多的物體和動作描述對初始 T2V 提示進行增強 (Yang et al., 2024)。該增強過程經過精心設計,以避免透露預期的物理現象。
  4. 多樣性提升:根據 T2V-CompBench (Sun et al., 2024),我們使用 GPT-4o 對增強的提示進行物體替換。此步驟提高了基準的多樣性。
  5. 質量控制:對提示及其相關的物理定律進行了全面審查,以確保準確性和相關性。特別是,確保 T2V 提示及其對應的物理定律清晰準確。


隨后,隨機使用當前的 T2V 模型檢查提示是否足夠簡單,以便模型生成語義準確的視頻。這一方法生成了一個穩(wěn)健且全面的基準,用于評估 T2V 模型對物理常識的理解,為推動該領域的研究提供了寶貴工具。

PhyGenEval

PhyGenEval 旨在評估生成視頻中的物理現象是否符合相應的物理定律。為了獲得明確的判斷,評估被分為語義對齊(SA)和物理常識對齊(PCA)。SA 評估生成視頻與輸入提示之間的語義含義是否匹配,而 PCA 則衡量視頻中的物理定律是否得到了體現。例如,對于“雞蛋與石頭碰撞”這一場景,SA 需要視頻中包含雞蛋、石頭和碰撞動作。PCA 則要求視頻展現完整的物理過程,即雞蛋撞上石頭并破裂,而石頭保持完好。根據 (He et al., 2024b),我們將 SA 和 PCA 都轉換為四分制評分,以及人工評分。

語義對齊評估

直接使用視覺語言模型(VLM)來對齊視頻與輸入提示的語義含義比較困難,因為提示通?;旌狭苏Z義實體和物理現象,視頻中的中間結果往往被隱含。例如,對于提示“一個延時攝影記錄了湯溫度上升超過100°C的轉變”,可能生成的視頻是“視頻顯示了一碗湯,但湯沒有發(fā)生任何轉變”。為了解決這一挑戰(zhàn),我們首先使用 GPT-4o 從原始文本提示中提取對象和動作,然后利用 GPT-4o 依次判斷視頻中是否出現了提取的對象,并驗證指定動作的發(fā)生。此分解方法可以更細致地捕捉信息,防止模型在評估過程中混淆語義和物理正確性。實驗結果表明,我們的自動評估方法與人類判斷更為一致,并且在 PhyGenBench 上優(yōu)于之前的方法 (He et al., 2024b; Sun et al., 2024)

物理常識評估

為了評估視頻中的物理正確性,我們比較了多個常見評估指標與人工評估的結果。表1的實驗結果顯示,這些方法在 PhyGenBench 上難以推廣到物理常識正確性的評估,例如 VideoScore在 PhyGenBench 上的斯皮爾曼相關系數只有0.19,盡管這是除 PhyGenEval 之外與人工評估最相關的方法。其主要原因是:直接使用基于視頻的 VLM 無法理解視頻中的物理常識 ,因為現有方法并不是以物理常識為基礎設計的。

為了全面理解視頻中的物理常識,需要解決以下三個關鍵問題:

  1. 關鍵物理現象:物理過程通常表現出清晰的關鍵現象,如“雞蛋撞擊巖石后破裂”。必須識別這些關鍵物理現象并檢測它們在視頻中的出現。
  2. 因果關系與事件順序:物理過程具有因果關系,表現在關鍵事件的正確順序中,如“雞蛋先碰到石頭,然后破裂”。正確的事件順序驗證了物理過程的正確性。
  3. 整體自然性:物理過程需要具備整體的自然性,反映過程的真實性。


為了解決這些問題,PhyGenEval 設計了一種漸進策略,首先檢測關鍵物理現象,然后驗證多個關鍵現象的順序,最后評估整個視頻過程的自然性。這種層次化、精細化的方法比現有直接使用 VLM 評估物理常識的方法更為有效,使得 PhyGenEval 能夠實現與人工評估更為接近的結果。

關鍵物理現象檢測

2024年了,視頻生成模型離通用世界模擬器還有多大差距?SOTA模型全面評估-AI.x社區(qū)

2024年了,視頻生成模型離通用世界模擬器還有多大差距?SOTA模型全面評估-AI.x社區(qū)

2024年了,視頻生成模型離通用世界模擬器還有多大差距?SOTA模型全面評估-AI.x社區(qū)

物理順序驗證

在這一階段,驗證關鍵物理現象是否按正確的順序發(fā)生。正確的物理順序是物理過程中反映因果關系的有序事件序列,它代表了關鍵物理現象的必要前提和時間順序。例如,雞蛋應先接觸石頭,然后破裂??紤]到 PhyGenBench 中的當前模型通常保持結果一致性(如:雞蛋破裂后不會重新組裝),通過關鍵幀來研究順序正確性(如前面圖3(b)所示),例如,雞蛋撞擊石頭的關鍵幀應在破裂的關鍵幀之前。

2024年了,視頻生成模型離通用世界模擬器還有多大差距?SOTA模型全面評估-AI.x社區(qū)

整體自然性評估

2024年了,視頻生成模型離通用世界模擬器還有多大差距?SOTA模型全面評估-AI.x社區(qū)

實驗設置

評估了包括 OpenSora V1.2、Lavie、CogVideoX 2b、CogVideoX 5b 和 Vchitect2.0  在內的 5 個開源模型,以及專有模型 Kling 、Pika 和 Gen-3 。將提出的指標與現有的指標或基準進行比較:Videophy、VideoScore和 DEVIL。

人工評估

如下表 1 所示,當前的視頻生成評估指標在很大程度上忽視了物理正確性。相比之下,PhyGenEval 實現了一個詳細的設計用于評估物理正確性,展現出與人類判斷的強相關性。在所有類別中,其總體相關系數達到 0.81,表明 PhyGenEval 作為 PhyGenBench 的一個有效的人類對齊的物理常識正確性評估器。

2024年了,視頻生成模型離通用世界模擬器還有多大差距?SOTA模型全面評估-AI.x社區(qū)

本文進行了一些案例研究,以更清楚地說明各種指標之間的差異。如下圖 4 所示,(a) 和 (f) 表明 VideoScore 和 DEVIL 傾向于錯誤分類那些運動平滑且一致但違反基本物理定律的視頻。例如,在 (a) 中,當“一個雞蛋在撞擊巖石時表現出橡膠般的彈性而不是破裂”時,這些指標錯誤地將其評估為物理正確。VideoPhy 展示了類似的局限性。在 (c) 中,它錯誤地評估“巖石漂浮在水面上而不是下沉”為物理正確。此外,我們的分析揭示了這三種方法的一個主要缺陷:它們無法納入領域特定的物理常識。如 (e) 所示,“燃燒銅的火焰呈紅色而不是綠色”,這些指標未能識別出這個錯誤。這表明它們無法結合領域特定的物理常識。相比之下,PhyGenEval 展示了對物理常識的穩(wěn)健整合和全面的視頻內容分析,從而在 PhyGenBench 中實現了更準確且物理一致的評估。

2024年了,視頻生成模型離通用世界模擬器還有多大差距?SOTA模型全面評估-AI.x社區(qū)

定量評估

對多種流行的視頻生成模型進行了廣泛的實驗。如下表 2 所示,即使是表現最好的模型 Gen-3,在 PhyGenBench 上的 PCA 得分也僅為 0.51。這表明,即使對于包含明顯物理常識的提示,當前的 T2V 模型仍然難以生成符合直觀物理規(guī)律的視頻。這間接反映出這些模型距離實現世界模擬器的目標仍然相去甚遠。此外,還發(fā)現以下關鍵觀察:

2024年了,視頻生成模型離通用世界模擬器還有多大差距?SOTA模型全面評估-AI.x社區(qū)

  • 光學領域的表現優(yōu)異:在各種物理常識類別中,所有模型在光學領域的表現始終優(yōu)于其他領域。特別是 Vchitect2.0 和 CogVideoX-5b 在光學領域的 PCA 得分與閉源模型相當。我們認為,在光學領域的優(yōu)異表現可以歸因于預訓練數據集中對光學知識的豐富且明確的表征,從而增強了模型在該領域的理解。
  • Kling 和 Gen-3 的優(yōu)勢:Kling 和 Gen-3 顯示出顯著高于其他模型的性能。具體而言,Gen-3 對物質性質的理解非常扎實,取得了 0.51 的得分,顯著超越其他模型。而 Kling 在熱學方面表現尤為突出,在該領域達到了最高的 0.50 分。
  • 開源模型的比較:在開源模型中,Vchitect2.0 和 CogVideoX 5b 的表現相對較好,均超過了 Pika 的性能。相比之下,Lavie 在所有類別中的物理正確性始終較低。

定性評估

在下圖 5 中展示了 4 個物理常識類別的不同視頻案例。主要觀察如下:

2024年了,視頻生成模型離通用世界模擬器還有多大差距?SOTA模型全面評估-AI.x社區(qū)

  • 力學:模型在生成簡單的物理準確現象時表現不佳。如圖 5 所示,所有模型未能描繪出玻璃球沉入水中的場景。在 (b) 中,模型反而顯示球漂浮在水面上,OpenSora 和 Gen-3 甚至生成了球懸浮的動畫。此外,模型未能捕捉到特定物理現象,例如零重力狀態(tài)下的水,如 (a) 所示。
  • 光學:模型在光學方面的表現相對較好。(c) 和 (d) 顯示模型處理水中氣球的反射和五彩泡泡,盡管 OpenSora 和 CogVideoX 仍在 (d) 中產生了明顯失真的反射。
  • 熱學:模型在生成相變視頻方面表現不佳。在 (e) 中的熔化現象,大多數模型的結果不正確,CogVideoX 甚至生成了冰淇淋變大的視頻。在 (f) 中,升華過程也出現類似錯誤,只有 Gen-3 顯示出部分理解。
  • 物質性質:在 (g) 中,所有模型未能識別出雞蛋撞擊巖石時應該破裂的事實,Kling 顯示雞蛋像橡皮球一樣反彈。對于簡單的化學反應,例如在 (h) 中的黑面包實驗,模型沒有展現出對預期反應的準確理解。

消融研究

對 PhyGenEval 中設計元素的穩(wěn)健性進行了詳細分析,包括三層評估框架中每個層級的作用,以及在整體自然性評估中提出的兩階段策略的影響。實驗結果顯示,PhyGenEval 的關鍵設計是必不可少的。

討論

本節(jié)討論了模型在物理常識評估中的表現差異及其原因,強調了未來模型在物理理解和生成能力上的提升空間。同時,通過對評估框架的消融研究,驗證了各組成部分在提升評估精度和可靠性方面的重要性。

討論了一些常用手段是否可以解決PhyGenBench中所提出的問題,具體來說,討論了Prompt Engineer(使用GPT rewrite prompt),Scaling Law,以及提高video general quality是否可以解決PhyGenBench中的問題(具體來說,提高VBench上的表現和PhyGenBench的關系)。

我們發(fā)現:

  • 擴展模型規(guī)??梢越鉀Q一些問題,但仍難以處理動力學物理現象,我們認為這需要在大量合成數據上進行廣泛的訓練。(參考[PhysGen])
  • 提示工程只能解決一些簡單的問題(例如火焰顏色),這凸顯了PhyGenBench的難度和重要性。
  • 盡管某些方法(Venhancer)可以提高視頻的整體質量,但它們并未增強模型對物理常識的理解。

結論

本文探討了當前 T2V 模型對物理常識理解與其作為世界模擬器的角色之間的差距。為此,我們引入了 PhyGenBench 和 PhyGenEval。PhyGenBench 是一個專門設計的基準,旨在評估模型對物理常識的理解,涵蓋各種物理定律和簡單、清晰的物理現象。與 PhyGenBench 一起,提出了一種新的三層層級評估框架,稱為 PhyGenEval,以自動化評估過程。實驗和分析結果表明,當前的 T2V 模型在生成與物理常識一致的視頻方面面臨挑戰(zhàn),凸顯出與世界模擬之間的顯著差距。此外,單純擴大模型規(guī)?;驊锰崾竟こ虩o法解決 PhyGenBench 中的問題,特別是涉及動態(tài)物理現象的挑戰(zhàn)。

未來的工作

我們的研究表明,盡管一些方法可以提高模型的表現,但要解決物理常識的理解問題,仍需要更深入的研究。未來的工作可以集中在以下幾個方向:

  • 數據增強和合成:對模型進行廣泛的合成數據訓練,特別是動態(tài)物理現象,以增強模型的物理理解能力。
  • 更復雜的提示工程:開發(fā)更復雜的提示工程技術,旨在解決涉及多種物理現象的復雜問題。
  • 跨學科的合作:結合計算機科學和物理學的專業(yè)知識,開發(fā)能夠更好模擬物理規(guī)律的模型和算法。
  • 基準的擴展:擴展 PhyGenBench,加入更多復雜的物理現象和應用場景,以全面評估模型的物理理解能力。

通過這些努力,希望能夠縮小當前 T2V 模型在物理常識理解方面的差距,并推動其朝著更高水平的世界模擬器邁進。


本文轉自  AI生成未來 ,作者: AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/D1F15prJu76rpse8Aos1cA??

標簽
收藏
回復
舉報
回復
相關推薦