AI生成視頻總不符合物理規(guī)律?匹茲堡大學(xué)團(tuán)隊(duì)新作PhyT2V:不重訓(xùn)練模型也能讓物理真實(shí)度狂飆2.3倍!
本文由匹茲堡大學(xué)智能系統(tǒng)實(shí)驗(yàn)室(Intelligent Systems Laboratory)的研究團(tuán)隊(duì)完成。第一作者為匹茲堡大學(xué)的一年級(jí)博士生薛琪耀。
當(dāng)前文本生成視頻(T2V)技術(shù)正在從注重視覺質(zhì)量與模型規(guī)模的擴(kuò)展階段,邁向更關(guān)注物理一致性與現(xiàn)實(shí)合理性的推理驅(qū)動(dòng)階段。
物理規(guī)律作為建?,F(xiàn)實(shí)世界的基本知識(shí)體系,是實(shí)現(xiàn)高質(zhì)量視頻生成的關(guān)鍵約束。提升大模型對(duì)現(xiàn)實(shí)物理動(dòng)態(tài)的理解與遵循能力,成為推動(dòng) T2V 技術(shù)落地的重要突破方向。
為推動(dòng)物理一致性驅(qū)動(dòng)的 T2V 生成研究,來自匹茲堡大學(xué)的研究團(tuán)隊(duì)提出了 PhyT2V 框架,并在最新論文中系統(tǒng)闡述了該方法的核心機(jī)制,該論文已被 CVPR 2025 接收。
- 論文標(biāo)題:PhyT2V: LLM-Guided Iterative Self-Refinement for Physics-Grounded Text-to-Video Generation
- 論文地址:https://arxiv.org/abs/2412.00596
該方法不依賴模型重訓(xùn)練或大規(guī)模外部數(shù)據(jù),而是通過引入大型語言模型引導(dǎo)的鏈?zhǔn)酵评砼c迭代自我修正機(jī)制,對(duì)文本提示進(jìn)行多輪物理一致性分析與優(yōu)化,從而有效增強(qiáng)主流 T2V 模型在現(xiàn)實(shí)物理場(chǎng)景中的泛化與生成能力。
此框架可以被廣泛地應(yīng)用到任何已有的 T2V 模型上,而且不需要用戶任何的手動(dòng)干預(yù)就可以實(shí)現(xiàn)完全自動(dòng)化的 T2V 增強(qiáng),因此擁有極低的落地門檻和非常好的泛化性,在實(shí)際應(yīng)用中有非常廣闊的應(yīng)用前景。
近年來,文本到視頻(Text-to-Video,T2V)生成技術(shù)取得了顯著進(jìn)展,出現(xiàn)了基于 Transformer 擴(kuò)散模型的 Sora、Pika 和 CogVideoX 等模型。這些模型能夠生成復(fù)雜且逼真的場(chǎng)景。
然而,盡管單幀視頻質(zhì)量很高,當(dāng)前的 T2V 模型在遵守現(xiàn)實(shí)世界常識(shí)和物理規(guī)則方面存在顯著不足。例如,它們可能無法正確處理物體的數(shù)量、材質(zhì)特性、流體動(dòng)力學(xué)、重力、運(yùn)動(dòng)、碰撞和因果關(guān)系。
現(xiàn)有讓 T2V 模型生成內(nèi)容更符合物理規(guī)則的方法主要存在以下局限性,尤其是在處理訓(xùn)練數(shù)據(jù)未涵蓋的分布外(out-of-distribution,OOD)場(chǎng)景時(shí):
- 數(shù)據(jù)驅(qū)動(dòng)方法局限:大多數(shù)現(xiàn)有方法是數(shù)據(jù)驅(qū)動(dòng)的,依賴于大規(guī)模多模態(tài) T2V 數(shù)據(jù)集來訓(xùn)練擴(kuò)散模型。然而,這高度依賴于數(shù)據(jù)集的數(shù)量、質(zhì)量和多樣性。由于物理規(guī)則并未在訓(xùn)練過程中被顯式嵌入,這些方法在訓(xùn)練數(shù)據(jù)未覆蓋的分布外領(lǐng)域泛化能力受限,視頻生成質(zhì)量會(huì)大幅下降。真實(shí)世界場(chǎng)景的巨大多樣性進(jìn)一步限制了這些模型的通用性。
- 注入物理知識(shí)方法的局限:也有研究嘗試使用現(xiàn)有的 3D 引擎(如 Blender、Unity3D、Unreal)或數(shù)學(xué)模型將物理知識(shí)注入到 T2V 模型中。但這些方法通常受限于固定的物理類別和模式,如預(yù)定義的物體和運(yùn)動(dòng),同樣缺乏通用性。
- 現(xiàn)有提示增強(qiáng)方法的局限:雖然有研究表明通過細(xì)化提示可以改善分布外提示下的視頻生成質(zhì)量,但現(xiàn)有許多提示增強(qiáng)方法僅僅是基于主觀經(jīng)驗(yàn)簡(jiǎn)單地增強(qiáng)或修改提示,而缺乏一個(gè)有效的反饋機(jī)制來判斷生成的視頻在多大程度上偏離了現(xiàn)實(shí)世界知識(shí)和物理規(guī)則,以及當(dāng)前的提示增強(qiáng)是否有效提升了視頻的物理真實(shí)度。
- 額外輸入方法的局限:一些方法嘗試通過提供額外輸入模態(tài)為 T2V 模型提供反饋。但這會(huì)引入大量的額外計(jì)算開銷并且缺乏通用性。
為了實(shí)現(xiàn)可泛化的物理真實(shí)的 T2V 生成,匹茲堡大學(xué)的研究人員提出了 PhyT2V。
PhyT2V 不通過擴(kuò)展數(shù)據(jù)集或復(fù)雜化模型架構(gòu),而是通過將現(xiàn)實(shí)世界知識(shí)和物理規(guī)則嵌入到文本提示中,提供足夠的上下文,從而將現(xiàn)有 T2V 模型的生成能力擴(kuò)展到分布外領(lǐng)域。
為了避免模糊不清的提示工程,PhyT2V 的核心思想是在 T2V 提示過程中啟用思維鏈(Chain-of-Thought,CoT)和回溯推理(step-back reasoning)。通過應(yīng)用分步指導(dǎo)和迭代自修正,確保 T2V 模型遵循正確的物理動(dòng)態(tài)和幀間一致性。
其核心貢獻(xiàn)在于:無需任何額外訓(xùn)練或模型結(jié)構(gòu)更改,而是僅僅通過結(jié)合 LLM 的推理與回溯能力,進(jìn)行逐輪提示修正,從而顯著提升現(xiàn)有 T2V 模型在物理一致性任務(wù)中的性能。該方法可泛化適用于不同架構(gòu)和訓(xùn)練背景的 T2V 模型,尤其在分布外提示下展現(xiàn)出強(qiáng)大的增強(qiáng)效果。
方法介紹
PhyT2V 利用經(jīng)過良好訓(xùn)練的大型語言模型(LLM),例如 ChatGPT-4o,來促進(jìn) CoT 和回溯推理。這種推理以迭代方式進(jìn)行,每一輪都自主修正 T2V 提示和生成的視頻,包含三個(gè)步驟:
步驟 1:識(shí)別物理規(guī)則和主要對(duì)象
LLM 分析用戶提示,通過「上下文學(xué)習(xí)」提取視頻中應(yīng)顯示的對(duì)象和應(yīng)遵循的物理規(guī)則。這一步的提示會(huì)給出詳細(xì)的任務(wù)說明和少量示例。LLM 的輸出描述物理規(guī)則但不提供公式。消融研究表明此步驟是必要的。
步驟 2:識(shí)別提示與視頻之間的語義不匹配
首先,使用視頻字幕模型(例如 Tarsier)將生成的視頻的語義內(nèi)容轉(zhuǎn)換為文本。然后,LLM 使用 CoT 推理評(píng)估視頻字幕與當(dāng)前 T2V 提示之間的不匹配之處。使用視頻字幕是因?yàn)?CoT 方法更適合處理單模態(tài)數(shù)據(jù),它強(qiáng)調(diào)線性分解和分步推理。通過將視頻內(nèi)容轉(zhuǎn)化為文本,可以在文本域中進(jìn)行 CoT 和回溯推理。消融研究證實(shí)此步驟對(duì)于識(shí)別和糾正視頻中與期望不符的細(xì)節(jié)至關(guān)重要。
步驟 3:生成修正后的提示
LLM 通過結(jié)合步驟 1 總結(jié)的物理規(guī)則和解決步驟 2 得出的不匹配之處,使用回溯提示來修正當(dāng)前的 T2V 提示?;厮萃评碛兄趶母邔哟蔚某橄笾袑?dǎo)出問題。這一步驟的提示結(jié)構(gòu)也包含任務(wù)說明、示例和當(dāng)前任務(wù)信息。此外,還會(huì)提供上一輪提示修正效果的量化反饋(例如,使用 VideoCon-Physics 評(píng)估器的得分),指導(dǎo) LLM 采取不同的推理路徑。修正后的 T2V 提示將作為新的用戶提示再次用于 T2V 模型生成視頻,開始新一輪的修正。這種迭代修正會(huì)持續(xù)進(jìn)行,直到生成的視頻質(zhì)量令人滿意或視頻質(zhì)量的改進(jìn)收斂。整個(gè)過程通常需要幾輪,大多數(shù)改進(jìn)發(fā)生在最初兩輪,3-4 輪通常足夠。
PhyT2V 的優(yōu)勢(shì)
與現(xiàn)有提示增強(qiáng)方法相比,PhyT2V 的關(guān)鍵貢獻(xiàn)在于分析當(dāng)前生成的視頻與提示之間的語義不匹配,并基于不匹配與相關(guān)的物理知識(shí)進(jìn)行修正,而之前的許多方法只是簡(jiǎn)單地增強(qiáng)或修改提示。PhyT2V 的主要優(yōu)勢(shì)包括:
- 無需訓(xùn)練、即插即用:無需修改任何 T2V 模型結(jié)構(gòu),也不需額外訓(xùn)練數(shù)據(jù),即可直接增強(qiáng)不同 T2V 模型的物理一致性。
- 提示修正具備反饋閉環(huán):不只是修改提示文本,而是基于真實(shí)生成結(jié)果的語義偏差反饋,進(jìn)行有針對(duì)性的優(yōu)化。
- 跨領(lǐng)域通用性強(qiáng):在多個(gè)物理場(chǎng)景(固體、流體、重力、運(yùn)動(dòng)等)尤其是分布外場(chǎng)景下表現(xiàn)優(yōu)異,具備廣泛適配性。
實(shí)驗(yàn)
研究人員在多個(gè)基于 Diffusion Transformer 的開源 T2V 模型上應(yīng)用了 PhyT2V,包括 CogVideoX 2B & 5B、OpenSora 和 VideoCrafter。
評(píng)估使用了 VideoPhy 和 PhyGenBench 這兩個(gè)強(qiáng)調(diào)物理定律和遵守度的提示基準(zhǔn)數(shù)據(jù)集,使用 VideoCon-Physics 評(píng)估器衡量生成的視頻對(duì)物理常識(shí)(PC)和語義遵守度(SA)的遵守情況,并在 VBench 評(píng)測(cè)基準(zhǔn)上也取得了領(lǐng)先的表現(xiàn)。
實(shí)驗(yàn)結(jié)果表明,PhyT2V 顯著提高了生成的視頻對(duì)文本提示本身以及現(xiàn)實(shí)世界物理規(guī)則的遵守程度。
這種改進(jìn)在 CogVideoX-5B 模型上最為顯著,PC 提高可達(dá) 2.2 倍,SA 提高可達(dá) 2.3 倍。在其他模型上也有顯著提升。迭代修正過程收斂速度快,通常 3-4 輪足夠。
PhyT2V 大幅領(lǐng)先于直接使用 ChatGPT 4 或 Promptist 等現(xiàn)有提示增強(qiáng)方法至少 35%。消融研究證實(shí)了步驟 1(物理規(guī)則推理)和步驟 2(不匹配推理)在 PhyT2V 工作流程中的必要性。模型尺寸也會(huì)影響 PhyT2V 的表現(xiàn),在較大的模型上 PhyT2V 性能更好。
總結(jié)
總而言之,PhyT2V 是一種新穎的、數(shù)據(jù)獨(dú)立的 T2V 生成框架。通過結(jié)合 CoT 推理和回溯提示,PhyT2V 系統(tǒng)地修正 T2V 提示,以確保生成的視頻遵守現(xiàn)實(shí)世界物理原理,而無需額外的模型重新訓(xùn)練或依賴額外條件。這項(xiàng)工作為構(gòu)建更理解物理世界、能生成更逼真視頻的 T2V 模型邁出了重要一步。