自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI生成視頻總不符合物理規(guī)律?匹茲堡大學(xué)團(tuán)隊(duì)新作PhyT2V:不重訓(xùn)練模型也能讓物理真實(shí)度狂飆2.3倍!

人工智能 新聞
為推動(dòng)物理一致性驅(qū)動(dòng)的 T2V 生成研究,來自匹茲堡大學(xué)的研究團(tuán)隊(duì)提出了 PhyT2V 框架,并在最新論文中系統(tǒng)闡述了該方法的核心機(jī)制,該論文已被 CVPR 2025 接收。

本文由匹茲堡大學(xué)智能系統(tǒng)實(shí)驗(yàn)室(Intelligent Systems Laboratory)的研究團(tuán)隊(duì)完成。第一作者為匹茲堡大學(xué)的一年級(jí)博士生薛琪耀。

當(dāng)前文本生成視頻(T2V)技術(shù)正在從注重視覺質(zhì)量與模型規(guī)模的擴(kuò)展階段,邁向更關(guān)注物理一致性與現(xiàn)實(shí)合理性的推理驅(qū)動(dòng)階段。

物理規(guī)律作為建?,F(xiàn)實(shí)世界的基本知識(shí)體系,是實(shí)現(xiàn)高質(zhì)量視頻生成的關(guān)鍵約束。提升大模型對(duì)現(xiàn)實(shí)物理動(dòng)態(tài)的理解與遵循能力,成為推動(dòng) T2V 技術(shù)落地的重要突破方向。

為推動(dòng)物理一致性驅(qū)動(dòng)的 T2V 生成研究,來自匹茲堡大學(xué)的研究團(tuán)隊(duì)提出了 PhyT2V 框架,并在最新論文中系統(tǒng)闡述了該方法的核心機(jī)制,該論文已被 CVPR 2025 接收。

圖片

該方法不依賴模型重訓(xùn)練或大規(guī)模外部數(shù)據(jù),而是通過引入大型語言模型引導(dǎo)的鏈?zhǔn)酵评砼c迭代自我修正機(jī)制,對(duì)文本提示進(jìn)行多輪物理一致性分析與優(yōu)化,從而有效增強(qiáng)主流 T2V 模型在現(xiàn)實(shí)物理場(chǎng)景中的泛化與生成能力。

此框架可以被廣泛地應(yīng)用到任何已有的 T2V 模型上,而且不需要用戶任何的手動(dòng)干預(yù)就可以實(shí)現(xiàn)完全自動(dòng)化的 T2V 增強(qiáng),因此擁有極低的落地門檻和非常好的泛化性,在實(shí)際應(yīng)用中有非常廣闊的應(yīng)用前景。

圖片

近年來,文本到視頻(Text-to-Video,T2V)生成技術(shù)取得了顯著進(jìn)展,出現(xiàn)了基于 Transformer 擴(kuò)散模型的 Sora、Pika 和 CogVideoX 等模型。這些模型能夠生成復(fù)雜且逼真的場(chǎng)景。

然而,盡管單幀視頻質(zhì)量很高,當(dāng)前的 T2V 模型在遵守現(xiàn)實(shí)世界常識(shí)和物理規(guī)則方面存在顯著不足。例如,它們可能無法正確處理物體的數(shù)量、材質(zhì)特性、流體動(dòng)力學(xué)、重力、運(yùn)動(dòng)、碰撞和因果關(guān)系。

圖片

現(xiàn)有讓 T2V 模型生成內(nèi)容更符合物理規(guī)則的方法主要存在以下局限性,尤其是在處理訓(xùn)練數(shù)據(jù)未涵蓋的分布外(out-of-distribution,OOD)場(chǎng)景時(shí):

  • 數(shù)據(jù)驅(qū)動(dòng)方法局限:大多數(shù)現(xiàn)有方法是數(shù)據(jù)驅(qū)動(dòng)的,依賴于大規(guī)模多模態(tài) T2V 數(shù)據(jù)集來訓(xùn)練擴(kuò)散模型。然而,這高度依賴于數(shù)據(jù)集的數(shù)量、質(zhì)量和多樣性。由于物理規(guī)則并未在訓(xùn)練過程中被顯式嵌入,這些方法在訓(xùn)練數(shù)據(jù)未覆蓋的分布外領(lǐng)域泛化能力受限,視頻生成質(zhì)量會(huì)大幅下降。真實(shí)世界場(chǎng)景的巨大多樣性進(jìn)一步限制了這些模型的通用性。
  • 注入物理知識(shí)方法的局限:也有研究嘗試使用現(xiàn)有的 3D 引擎(如 Blender、Unity3D、Unreal)或數(shù)學(xué)模型將物理知識(shí)注入到 T2V 模型中。但這些方法通常受限于固定的物理類別和模式,如預(yù)定義的物體和運(yùn)動(dòng),同樣缺乏通用性。
  • 現(xiàn)有提示增強(qiáng)方法的局限:雖然有研究表明通過細(xì)化提示可以改善分布外提示下的視頻生成質(zhì)量,但現(xiàn)有許多提示增強(qiáng)方法僅僅是基于主觀經(jīng)驗(yàn)簡(jiǎn)單地增強(qiáng)或修改提示,而缺乏一個(gè)有效的反饋機(jī)制來判斷生成的視頻在多大程度上偏離了現(xiàn)實(shí)世界知識(shí)和物理規(guī)則,以及當(dāng)前的提示增強(qiáng)是否有效提升了視頻的物理真實(shí)度。
  • 額外輸入方法的局限:一些方法嘗試通過提供額外輸入模態(tài)為 T2V 模型提供反饋。但這會(huì)引入大量的額外計(jì)算開銷并且缺乏通用性。

為了實(shí)現(xiàn)可泛化的物理真實(shí)的 T2V 生成,匹茲堡大學(xué)的研究人員提出了 PhyT2V。

PhyT2V 不通過擴(kuò)展數(shù)據(jù)集或復(fù)雜化模型架構(gòu),而是通過將現(xiàn)實(shí)世界知識(shí)和物理規(guī)則嵌入到文本提示中,提供足夠的上下文,從而將現(xiàn)有 T2V 模型的生成能力擴(kuò)展到分布外領(lǐng)域。

為了避免模糊不清的提示工程,PhyT2V 的核心思想是在 T2V 提示過程中啟用思維鏈(Chain-of-Thought,CoT)和回溯推理(step-back reasoning)。通過應(yīng)用分步指導(dǎo)和迭代自修正,確保 T2V 模型遵循正確的物理動(dòng)態(tài)和幀間一致性。

其核心貢獻(xiàn)在于:無需任何額外訓(xùn)練或模型結(jié)構(gòu)更改,而是僅僅通過結(jié)合 LLM 的推理與回溯能力,進(jìn)行逐輪提示修正,從而顯著提升現(xiàn)有 T2V 模型在物理一致性任務(wù)中的性能。該方法可泛化適用于不同架構(gòu)和訓(xùn)練背景的 T2V 模型,尤其在分布外提示下展現(xiàn)出強(qiáng)大的增強(qiáng)效果。

方法介紹

PhyT2V 利用經(jīng)過良好訓(xùn)練的大型語言模型(LLM),例如 ChatGPT-4o,來促進(jìn) CoT 和回溯推理。這種推理以迭代方式進(jìn)行,每一輪都自主修正 T2V 提示和生成的視頻,包含三個(gè)步驟:

圖片

步驟 1:識(shí)別物理規(guī)則和主要對(duì)象

LLM 分析用戶提示,通過「上下文學(xué)習(xí)」提取視頻中應(yīng)顯示的對(duì)象和應(yīng)遵循的物理規(guī)則。這一步的提示會(huì)給出詳細(xì)的任務(wù)說明和少量示例。LLM 的輸出描述物理規(guī)則但不提供公式。消融研究表明此步驟是必要的。

步驟 2:識(shí)別提示與視頻之間的語義不匹配

首先,使用視頻字幕模型(例如 Tarsier)將生成的視頻的語義內(nèi)容轉(zhuǎn)換為文本。然后,LLM 使用 CoT 推理評(píng)估視頻字幕與當(dāng)前 T2V 提示之間的不匹配之處。使用視頻字幕是因?yàn)?CoT 方法更適合處理單模態(tài)數(shù)據(jù),它強(qiáng)調(diào)線性分解和分步推理。通過將視頻內(nèi)容轉(zhuǎn)化為文本,可以在文本域中進(jìn)行 CoT 和回溯推理。消融研究證實(shí)此步驟對(duì)于識(shí)別和糾正視頻中與期望不符的細(xì)節(jié)至關(guān)重要。

步驟 3:生成修正后的提示

LLM 通過結(jié)合步驟 1 總結(jié)的物理規(guī)則和解決步驟 2 得出的不匹配之處,使用回溯提示來修正當(dāng)前的 T2V 提示?;厮萃评碛兄趶母邔哟蔚某橄笾袑?dǎo)出問題。這一步驟的提示結(jié)構(gòu)也包含任務(wù)說明、示例和當(dāng)前任務(wù)信息。此外,還會(huì)提供上一輪提示修正效果的量化反饋(例如,使用 VideoCon-Physics 評(píng)估器的得分),指導(dǎo) LLM 采取不同的推理路徑。修正后的 T2V 提示將作為新的用戶提示再次用于 T2V 模型生成視頻,開始新一輪的修正。這種迭代修正會(huì)持續(xù)進(jìn)行,直到生成的視頻質(zhì)量令人滿意或視頻質(zhì)量的改進(jìn)收斂。整個(gè)過程通常需要幾輪,大多數(shù)改進(jìn)發(fā)生在最初兩輪,3-4 輪通常足夠。

PhyT2V 的優(yōu)勢(shì)

與現(xiàn)有提示增強(qiáng)方法相比,PhyT2V 的關(guān)鍵貢獻(xiàn)在于分析當(dāng)前生成的視頻與提示之間的語義不匹配,并基于不匹配與相關(guān)的物理知識(shí)進(jìn)行修正,而之前的許多方法只是簡(jiǎn)單地增強(qiáng)或修改提示。PhyT2V 的主要優(yōu)勢(shì)包括:

  • 無需訓(xùn)練、即插即用:無需修改任何 T2V 模型結(jié)構(gòu),也不需額外訓(xùn)練數(shù)據(jù),即可直接增強(qiáng)不同 T2V 模型的物理一致性。
  • 提示修正具備反饋閉環(huán):不只是修改提示文本,而是基于真實(shí)生成結(jié)果的語義偏差反饋,進(jìn)行有針對(duì)性的優(yōu)化。
  • 跨領(lǐng)域通用性強(qiáng):在多個(gè)物理場(chǎng)景(固體、流體、重力、運(yùn)動(dòng)等)尤其是分布外場(chǎng)景下表現(xiàn)優(yōu)異,具備廣泛適配性。

實(shí)驗(yàn)

研究人員在多個(gè)基于 Diffusion Transformer 的開源 T2V 模型上應(yīng)用了 PhyT2V,包括 CogVideoX 2B & 5B、OpenSora 和 VideoCrafter。

評(píng)估使用了 VideoPhy 和 PhyGenBench 這兩個(gè)強(qiáng)調(diào)物理定律和遵守度的提示基準(zhǔn)數(shù)據(jù)集,使用 VideoCon-Physics 評(píng)估器衡量生成的視頻對(duì)物理常識(shí)(PC)和語義遵守度(SA)的遵守情況,并在 VBench 評(píng)測(cè)基準(zhǔn)上也取得了領(lǐng)先的表現(xiàn)。

圖片


圖片

圖片

圖片

實(shí)驗(yàn)結(jié)果表明,PhyT2V 顯著提高了生成的視頻對(duì)文本提示本身以及現(xiàn)實(shí)世界物理規(guī)則的遵守程度。

這種改進(jìn)在 CogVideoX-5B 模型上最為顯著,PC 提高可達(dá) 2.2 倍,SA 提高可達(dá) 2.3 倍。在其他模型上也有顯著提升。迭代修正過程收斂速度快,通常 3-4 輪足夠。

PhyT2V 大幅領(lǐng)先于直接使用 ChatGPT 4 或 Promptist 等現(xiàn)有提示增強(qiáng)方法至少 35%。消融研究證實(shí)了步驟 1(物理規(guī)則推理)和步驟 2(不匹配推理)在 PhyT2V 工作流程中的必要性。模型尺寸也會(huì)影響 PhyT2V 的表現(xiàn),在較大的模型上 PhyT2V 性能更好。

圖片

圖片

總結(jié)

總而言之,PhyT2V 是一種新穎的、數(shù)據(jù)獨(dú)立的 T2V 生成框架。通過結(jié)合 CoT 推理和回溯提示,PhyT2V 系統(tǒng)地修正 T2V 提示,以確保生成的視頻遵守現(xiàn)實(shí)世界物理原理,而無需額外的模型重新訓(xùn)練或依賴額外條件。這項(xiàng)工作為構(gòu)建更理解物理世界、能生成更逼真視頻的 T2V 模型邁出了重要一步。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-04-18 09:25:00

2025-03-21 09:40:32

2024-07-01 13:02:53

2024-02-19 08:58:00

模型AI

2025-01-08 12:53:45

2023-05-04 08:13:41

數(shù)學(xué)模型零測(cè)度集

2021-03-15 10:12:12

5G通信網(wǎng)絡(luò)巴西

2024-11-08 09:11:24

2021-09-06 14:57:24

AI 數(shù)據(jù)人工智能

2023-12-13 21:50:59

騰訊AI模型

2024-11-08 14:10:00

模型視頻生成

2023-11-27 13:48:00

模型數(shù)據(jù)

2024-04-15 12:52:00

AI數(shù)據(jù)

2023-07-25 16:25:00

研究模型

2023-11-05 15:15:47

AI技術(shù)

2011-12-26 10:37:27

云計(jì)算Google

2021-07-02 05:21:22

Windows 11操作系統(tǒng)微軟

2012-07-19 10:47:23

騰訊手機(jī)

2022-06-17 14:28:16

算法模型

2024-12-09 07:15:00

世界模型AILLM
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)