自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="rdnhx"><i id="rdnhx"><video id="rdnhx"></video></i></blockquote>

<style id="rdnhx"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

AI生成視頻總不符合物理規(guī)律？匹茲堡大學(xué)團(tuán)隊(duì)新作PhyT2V：不重訓(xùn)練模型也能讓物理真實(shí)度狂飆2.3倍！

2025-05-19 15:00:38

人工智能新聞

為推動(dòng)物理一致性驅(qū)動(dòng)的 T2V 生成研究，來自匹茲堡大學(xué)的研究團(tuán)隊(duì)提出了 PhyT2V 框架，并在最新論文中系統(tǒng)闡述了該方法的核心機(jī)制，該論文已被 CVPR 2025 接收。

本文由匹茲堡大學(xué)智能系統(tǒng)實(shí)驗(yàn)室（Intelligent Systems Laboratory）的研究團(tuán)隊(duì)完成。第一作者為匹茲堡大學(xué)的一年級(jí)博士生薛琪耀。

當(dāng)前文本生成視頻（T2V）技術(shù)正在從注重視覺質(zhì)量與模型規(guī)模的擴(kuò)展階段，邁向更關(guān)注物理一致性與現(xiàn)實(shí)合理性的推理驅(qū)動(dòng)階段。

物理規(guī)律作為建?，F(xiàn)實(shí)世界的基本知識(shí)體系，是實(shí)現(xiàn)高質(zhì)量視頻生成的關(guān)鍵約束。提升大模型對(duì)現(xiàn)實(shí)物理動(dòng)態(tài)的理解與遵循能力，成為推動(dòng) T2V 技術(shù)落地的重要突破方向。

為推動(dòng)物理一致性驅(qū)動(dòng)的 T2V 生成研究，來自匹茲堡大學(xué)的研究團(tuán)隊(duì)提出了 PhyT2V 框架，并在最新論文中系統(tǒng)闡述了該方法的核心機(jī)制，該論文已被 CVPR 2025 接收。

論文標(biāo)題：PhyT2V: LLM-Guided Iterative Self-Refinement for Physics-Grounded Text-to-Video Generation
論文地址：https://arxiv.org/abs/2412.00596

該方法不依賴模型重訓(xùn)練或大規(guī)模外部數(shù)據(jù)，而是通過引入大型語言模型引導(dǎo)的鏈?zhǔn)酵评砼c迭代自我修正機(jī)制，對(duì)文本提示進(jìn)行多輪物理一致性分析與優(yōu)化，從而有效增強(qiáng)主流 T2V 模型在現(xiàn)實(shí)物理場(chǎng)景中的泛化與生成能力。

此框架可以被廣泛地應(yīng)用到任何已有的 T2V 模型上，而且不需要用戶任何的手動(dòng)干預(yù)就可以實(shí)現(xiàn)完全自動(dòng)化的 T2V 增強(qiáng)，因此擁有極低的落地門檻和非常好的泛化性，在實(shí)際應(yīng)用中有非常廣闊的應(yīng)用前景。

近年來，文本到視頻（Text-to-Video，T2V）生成技術(shù)取得了顯著進(jìn)展，出現(xiàn)了基于 Transformer 擴(kuò)散模型的 Sora、Pika 和 CogVideoX 等模型。這些模型能夠生成復(fù)雜且逼真的場(chǎng)景。

然而，盡管單幀視頻質(zhì)量很高，當(dāng)前的 T2V 模型在遵守現(xiàn)實(shí)世界常識(shí)和物理規(guī)則方面存在顯著不足。例如，它們可能無法正確處理物體的數(shù)量、材質(zhì)特性、流體動(dòng)力學(xué)、重力、運(yùn)動(dòng)、碰撞和因果關(guān)系。

現(xiàn)有讓 T2V 模型生成內(nèi)容更符合物理規(guī)則的方法主要存在以下局限性，尤其是在處理訓(xùn)練數(shù)據(jù)未涵蓋的分布外（out-of-distribution，OOD）場(chǎng)景時(shí)：

數(shù)據(jù)驅(qū)動(dòng)方法局限：大多數(shù)現(xiàn)有方法是數(shù)據(jù)驅(qū)動(dòng)的，依賴于大規(guī)模多模態(tài) T2V 數(shù)據(jù)集來訓(xùn)練擴(kuò)散模型。然而，這高度依賴于數(shù)據(jù)集的數(shù)量、質(zhì)量和多樣性。由于物理規(guī)則并未在訓(xùn)練過程中被顯式嵌入，這些方法在訓(xùn)練數(shù)據(jù)未覆蓋的分布外領(lǐng)域泛化能力受限，視頻生成質(zhì)量會(huì)大幅下降。真實(shí)世界場(chǎng)景的巨大多樣性進(jìn)一步限制了這些模型的通用性。
注入物理知識(shí)方法的局限：也有研究嘗試使用現(xiàn)有的 3D 引擎（如 Blender、Unity3D、Unreal）或數(shù)學(xué)模型將物理知識(shí)注入到 T2V 模型中。但這些方法通常受限于固定的物理類別和模式，如預(yù)定義的物體和運(yùn)動(dòng)，同樣缺乏通用性。
現(xiàn)有提示增強(qiáng)方法的局限：雖然有研究表明通過細(xì)化提示可以改善分布外提示下的視頻生成質(zhì)量，但現(xiàn)有許多提示增強(qiáng)方法僅僅是基于主觀經(jīng)驗(yàn)簡(jiǎn)單地增強(qiáng)或修改提示，而缺乏一個(gè)有效的反饋機(jī)制來判斷生成的視頻在多大程度上偏離了現(xiàn)實(shí)世界知識(shí)和物理規(guī)則，以及當(dāng)前的提示增強(qiáng)是否有效提升了視頻的物理真實(shí)度。
額外輸入方法的局限：一些方法嘗試通過提供額外輸入模態(tài)為 T2V 模型提供反饋。但這會(huì)引入大量的額外計(jì)算開銷并且缺乏通用性。

為了實(shí)現(xiàn)可泛化的物理真實(shí)的 T2V 生成，匹茲堡大學(xué)的研究人員提出了 PhyT2V。

PhyT2V 不通過擴(kuò)展數(shù)據(jù)集或復(fù)雜化模型架構(gòu)，而是通過將現(xiàn)實(shí)世界知識(shí)和物理規(guī)則嵌入到文本提示中，提供足夠的上下文，從而將現(xiàn)有 T2V 模型的生成能力擴(kuò)展到分布外領(lǐng)域。

為了避免模糊不清的提示工程，PhyT2V 的核心思想是在 T2V 提示過程中啟用思維鏈（Chain-of-Thought，CoT）和回溯推理（step-back reasoning）。通過應(yīng)用分步指導(dǎo)和迭代自修正，確保 T2V 模型遵循正確的物理動(dòng)態(tài)和幀間一致性。

其核心貢獻(xiàn)在于：無需任何額外訓(xùn)練或模型結(jié)構(gòu)更改，而是僅僅通過結(jié)合 LLM 的推理與回溯能力，進(jìn)行逐輪提示修正，從而顯著提升現(xiàn)有 T2V 模型在物理一致性任務(wù)中的性能。該方法可泛化適用于不同架構(gòu)和訓(xùn)練背景的 T2V 模型，尤其在分布外提示下展現(xiàn)出強(qiáng)大的增強(qiáng)效果。

方法介紹

PhyT2V 利用經(jīng)過良好訓(xùn)練的大型語言模型（LLM），例如 ChatGPT-4o，來促進(jìn) CoT 和回溯推理。這種推理以迭代方式進(jìn)行，每一輪都自主修正 T2V 提示和生成的視頻，包含三個(gè)步驟：

步驟 1：識(shí)別物理規(guī)則和主要對(duì)象

LLM 分析用戶提示，通過「上下文學(xué)習(xí)」提取視頻中應(yīng)顯示的對(duì)象和應(yīng)遵循的物理規(guī)則。這一步的提示會(huì)給出詳細(xì)的任務(wù)說明和少量示例。LLM 的輸出描述物理規(guī)則但不提供公式。消融研究表明此步驟是必要的。

步驟 2：識(shí)別提示與視頻之間的語義不匹配

首先，使用視頻字幕模型（例如 Tarsier）將生成的視頻的語義內(nèi)容轉(zhuǎn)換為文本。然后，LLM 使用 CoT 推理評(píng)估視頻字幕與當(dāng)前 T2V 提示之間的不匹配之處。使用視頻字幕是因?yàn)?CoT 方法更適合處理單模態(tài)數(shù)據(jù)，它強(qiáng)調(diào)線性分解和分步推理。通過將視頻內(nèi)容轉(zhuǎn)化為文本，可以在文本域中進(jìn)行 CoT 和回溯推理。消融研究證實(shí)此步驟對(duì)于識(shí)別和糾正視頻中與期望不符的細(xì)節(jié)至關(guān)重要。

步驟 3：生成修正后的提示

LLM 通過結(jié)合步驟 1 總結(jié)的物理規(guī)則和解決步驟 2 得出的不匹配之處，使用回溯提示來修正當(dāng)前的 T2V 提示?；厮萃评碛兄趶母邔哟蔚某橄笾袑?dǎo)出問題。這一步驟的提示結(jié)構(gòu)也包含任務(wù)說明、示例和當(dāng)前任務(wù)信息。此外，還會(huì)提供上一輪提示修正效果的量化反饋（例如，使用 VideoCon-Physics 評(píng)估器的得分），指導(dǎo) LLM 采取不同的推理路徑。修正后的 T2V 提示將作為新的用戶提示再次用于 T2V 模型生成視頻，開始新一輪的修正。這種迭代修正會(huì)持續(xù)進(jìn)行，直到生成的視頻質(zhì)量令人滿意或視頻質(zhì)量的改進(jìn)收斂。整個(gè)過程通常需要幾輪，大多數(shù)改進(jìn)發(fā)生在最初兩輪，3-4 輪通常足夠。

PhyT2V 的優(yōu)勢(shì)

與現(xiàn)有提示增強(qiáng)方法相比，PhyT2V 的關(guān)鍵貢獻(xiàn)在于分析當(dāng)前生成的視頻與提示之間的語義不匹配，并基于不匹配與相關(guān)的物理知識(shí)進(jìn)行修正，而之前的許多方法只是簡(jiǎn)單地增強(qiáng)或修改提示。PhyT2V 的主要優(yōu)勢(shì)包括：

無需訓(xùn)練、即插即用：無需修改任何 T2V 模型結(jié)構(gòu)，也不需額外訓(xùn)練數(shù)據(jù)，即可直接增強(qiáng)不同 T2V 模型的物理一致性。
提示修正具備反饋閉環(huán)：不只是修改提示文本，而是基于真實(shí)生成結(jié)果的語義偏差反饋，進(jìn)行有針對(duì)性的優(yōu)化。
跨領(lǐng)域通用性強(qiáng)：在多個(gè)物理場(chǎng)景（固體、流體、重力、運(yùn)動(dòng)等）尤其是分布外場(chǎng)景下表現(xiàn)優(yōu)異，具備廣泛適配性。

實(shí)驗(yàn)

研究人員在多個(gè)基于 Diffusion Transformer 的開源 T2V 模型上應(yīng)用了 PhyT2V，包括 CogVideoX 2B & 5B、OpenSora 和 VideoCrafter。

評(píng)估使用了 VideoPhy 和 PhyGenBench 這兩個(gè)強(qiáng)調(diào)物理定律和遵守度的提示基準(zhǔn)數(shù)據(jù)集，使用 VideoCon-Physics 評(píng)估器衡量生成的視頻對(duì)物理常識(shí)（PC）和語義遵守度（SA）的遵守情況，并在 VBench 評(píng)測(cè)基準(zhǔn)上也取得了領(lǐng)先的表現(xiàn)。

實(shí)驗(yàn)結(jié)果表明，PhyT2V 顯著提高了生成的視頻對(duì)文本提示本身以及現(xiàn)實(shí)世界物理規(guī)則的遵守程度。

這種改進(jìn)在 CogVideoX-5B 模型上最為顯著，PC 提高可達(dá) 2.2 倍，SA 提高可達(dá) 2.3 倍。在其他模型上也有顯著提升。迭代修正過程收斂速度快，通常 3-4 輪足夠。

PhyT2V 大幅領(lǐng)先于直接使用 ChatGPT 4 或 Promptist 等現(xiàn)有提示增強(qiáng)方法至少 35%。消融研究證實(shí)了步驟 1（物理規(guī)則推理）和步驟 2（不匹配推理）在 PhyT2V 工作流程中的必要性。模型尺寸也會(huì)影響 PhyT2V 的表現(xiàn)，在較大的模型上 PhyT2V 性能更好。

總結(jié)

總而言之，PhyT2V 是一種新穎的、數(shù)據(jù)獨(dú)立的 T2V 生成框架。通過結(jié)合 CoT 推理和回溯提示，PhyT2V 系統(tǒng)地修正 T2V 提示，以確保生成的視頻遵守現(xiàn)實(shí)世界物理原理，而無需額外的模型重新訓(xùn)練或依賴額外條件。這項(xiàng)工作為構(gòu)建更理解物理世界、能生成更逼真視頻的 T2V 模型邁出了重要一步。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 生成模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="3hfmm"><i id="3hfmm"><video id="3hfmm"></video></i></blockquote>