自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA! 精華

發(fā)布于 2024-8-27 10:11
瀏覽
0收藏

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2407.17911
git鏈接:https://alberthkyhky.github.io/ReCorD/

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

亮點直擊

  • 引入了一種新穎的推理框架,將潛在擴散模型(LDM)與視覺語言模型(VLM)相結(jié)合,以克服生成逼真的人與物體互動(HOI)時面臨的挑戰(zhàn),緩解了以往方法中的問題,例如大語言模型(LLM)對簡單文本提示的過度分析以及LDM中的訓(xùn)練數(shù)據(jù)偏差。
  • 為了提升人物形象描繪的準(zhǔn)確性,在LDM中設(shè)計了一個校正機制,用于動態(tài)圖像調(diào)整,使得對生成圖像中人類互動的精確控制和精細化成為可能,從而顯著提高了描繪的準(zhǔn)確性。
  • 大量實驗表明,本文的免訓(xùn)練方法ReCorD在創(chuàng)建引人入勝且逼真的HOI場景方面表現(xiàn)出色,優(yōu)于其它SOTA方法。

擴散模型通過利用自然語言引導(dǎo)多媒體內(nèi)容的創(chuàng)作,徹底改變了圖像生成技術(shù)。盡管在這些生成模型上取得了顯著進展,但在描繪人類與物體的詳細互動方面仍存在挑戰(zhàn),特別是在姿勢和物體放置準(zhǔn)確性方面。


本文引入了一種名為推理和校正擴散(ReCorD)的免訓(xùn)練方法來解決這些挑戰(zhàn)。該模型結(jié)合了潛在擴散模型和視覺語言模型,以優(yōu)化生成過程,確保精確描繪人與物體的互動(HOI)。提出了一個互動感知推理模塊來改進互動的解釋,并引入一個互動校正模塊,以精細化輸出圖像,達到更精確的HOI生成效果。通過精心的姿勢選擇和物體定位過程,ReCorD在生成圖像的保真度方面表現(xiàn)出色,同時有效減少了計算需求。在三個基準(zhǔn)上進行了全面的實驗,展示了在解決文本到圖像生成任務(wù)上的顯著進展,ReCorD通過在HOI分類評分、FID和動詞CLIP評分上的優(yōu)越表現(xiàn),展示了其精確渲染復(fù)雜互動的能力,優(yōu)于現(xiàn)有方法。

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

方法

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

粗略候選生成模塊

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

其中,??表示文本標(biāo)記的索引。理想情況下,如果文本tokens存在于不及物提示中,會接受這些注意力圖。


自注意力圖操控。與交叉注意力圖不同,自注意力圖缺乏直接的tokens關(guān)聯(lián),但仍然會影響生成圖像的空間布局和外觀。因此,在去噪步驟?? >??后,同樣對潛在表示的自注意力圖進行操控,以獲得,其中??是一個預(yù)定義參數(shù),確??梢杂行蓙碜栽紅oken ??(??)的場景和物體。

互動感知推理模塊

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

姿勢選擇Agent。由于姿勢在HOI生成中具有重要特征,首先結(jié)合一個agent來選擇與提示條件一致的適當(dāng)姿勢。姿勢選擇agent將初始提示??與先前生成的候選相結(jié)合,以創(chuàng)建姿勢模板。利用VLM的視覺理解能力,該agent在識別與??對應(yīng)的精確姿勢方面表現(xiàn)出色,增強了模型對視覺數(shù)據(jù)的解釋能力,而不僅僅依賴于LLM中的文本認知。這一步驟確保了從LDMs初始獲得的姿勢信息在后續(xù)階段得到精細化處理。


ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

互動校正模塊

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

通過公式(3),可以在更新物體位置時減輕人與物體之間的注意力重疊問題,確保成功生成更新后的物體。


條件空間約束 由于ReCorD是免訓(xùn)練的,并且不涉及用于知識轉(zhuǎn)移的額外可學(xué)習(xí)網(wǎng)絡(luò),采用框約束來規(guī)范去噪器,其公式如下:

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

實驗

實驗設(shè)置

數(shù)據(jù)集。鑒于缺乏專門為HOI生成設(shè)計的標(biāo)準(zhǔn)基準(zhǔn),通過從兩個已建立的HOI檢測數(shù)據(jù)集中提取HOI三元組來評估我們方法的有效性,即HICO-DET和VCOCO,以形成輸入文本提示。HICO-DET包含600個三元組,涵蓋80個物體類別和117個動詞類別,而VCOCO包含228個三元組,跨越80個物體類別和29個動詞類型。為了全面評估,結(jié)合了T2I-CompBench中的非空間關(guān)系類別,該類別包含875個互動術(shù)語。選擇T2I-CompBench中僅涉及HOI的提示。為了增強多樣性,對從數(shù)據(jù)集中提取的每個動詞和物體對應(yīng)用隨機主體增強以形成輸入提示。因此,實驗在三個數(shù)據(jù)集上進行:HICO-DET,有7,650個HOI提示;VCOCO,提供2,550個提示;以及T2I-CompBench的非空間關(guān)系類別,增加465個提示。


Baselines。與九個表現(xiàn)強勁的模型的比較,

  • T2I模型:Stable Diffusion (SD)、Attend-and-Excite (A&E)、SDXL和DALL-E 3。
  • L2I模型:BoxDiff、MultiDiffusion和InteractDiffusion。
  • LLM輔助的T2I模型:LayoutLLM-T2I和LMD。

使用了每個Baseline的官方實現(xiàn)和默認設(shè)置。對于L2I模型,除了文本提示外,還提供了來自HICO-DET和VCOCO數(shù)據(jù)集的實際邊界框數(shù)據(jù)。對于LLM輔助的方法,輸入布局完全由LLMs生成,而不是來自數(shù)據(jù)集。


ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

質(zhì)量結(jié)果

提供了一個定性比較來評估生成的HOI。如下圖6所示,ReCorD在生成符合文本提示的真實人體姿勢和物體位置方面優(yōu)于其他最先進的方法,證明了其在高保真度描繪物體互動方面的能力。相比之下,Baseline方法往往會錯誤地放置物體或無法捕捉預(yù)期動作的細微差別。對于L2I模型,雖然BoxDiff在物體大小要求方面表現(xiàn)良好,但在準(zhǔn)確描繪互動姿勢方面存在困難;InteractDiffusion即使經(jīng)過微調(diào),仍無法準(zhǔn)確呈現(xiàn)細微動作,如(a)、(d)、(e)和(f)所示;MultiDiffusion盡力實現(xiàn)精確的物體定位,但生成的圖像大小各異。

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

另一方面,盡管LayoutLLM-T2I利用語言模型來改善布局生成,但通常會產(chǎn)生與人類不成比例的物體,這在(e)和(f)中尤為明顯。此外,MultiDiffusion定義了一種新的生成優(yōu)化過程,但它嚴(yán)重依賴于預(yù)訓(xùn)練模型的先驗知識。特別是,SDXL在動作姿勢(a)、(b)、(d)和(e)方面存在困難,而DALL-E 3在物體大小和位置(a)、(c)、(e)和(f)方面存在問題,顯示了ReCorD在超越現(xiàn)有解決方案的局限性方面的關(guān)鍵進展。

定量結(jié)果

生成結(jié)果的定量比較,其中HICO-DET和VCOCO的數(shù)據(jù)提示見下表1,T2I-CompBench數(shù)據(jù)提示見表2。

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)


圖像質(zhì)量評估。根據(jù)PickScore評估,ReCorD模型與SDXL模型相當(dāng),并且優(yōu)于其他方法。這表明,在將設(shè)計的互動校正模塊與SD模型結(jié)合后,ReCorD可以保持模型的圖像生成質(zhì)量,同時實現(xiàn)更真實的互動。此外,當(dāng)使用FID分數(shù)比較HICO-DET和VCOCO數(shù)據(jù)集中的生成圖像與真實圖像時,ReCorD優(yōu)于其他方法,除了InteractDiffusion。值得注意的是,考慮到InteractDiffusion使用HICO-DET和COCO數(shù)據(jù)集進行了微調(diào),ReCorD在無需訓(xùn)練或額外HOI數(shù)據(jù)的情況下表現(xiàn)尤為突出。


互動準(zhǔn)確性評估。上表1驗證了ReCorD顯著提高了HOI生成的準(zhǔn)確性,顯示了在合成更精確HOI方面的效果。

生成速度和內(nèi)存使用

生成一張圖像時,使用了Nvidia RTX 6000 GPU,當(dāng)使用SD/SDXL作為骨干網(wǎng)時,內(nèi)存消耗分別為14/42 GB,總推理時間為40.66/61.48秒。

比較布局建議的MLLM

評估了BLIP-2,通過隨機調(diào)整HICO-DET中真實邊界框的大小和位置。然而,BLIP-2常常誤解現(xiàn)實世界的分布,提供無關(guān)的答案和無效的mIoU分數(shù)。相比之下,GPT-4V達到了49.72%的mIoU分數(shù),展示了優(yōu)越的布局建議準(zhǔn)確性,使其非常適合ReCorD。

GPT-4V的評估

根據(jù)T2I-CompBench對非空間關(guān)系的評估,ReCorD取得了98.16的GPT分數(shù),優(yōu)于SOTA T2I方法如SDXL(97.87)、MultiDiffusion(97.43)和LayoutLLM-T2I(96.75)。這證明了ReCorD生成與基礎(chǔ)模型知識對齊的準(zhǔn)確HOI圖像的能力。

消融研究

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

結(jié)論

本文引入了專門為HOI(人-物體交互)圖像生成量身定制的ReCorD框架。該方法包括三個特定于交互的模塊,這些模塊相互協(xié)作。核心思想圍繞使用基于VLM(視覺語言模型)的agent和LDM(潛在擴散模型)來推理布局和修正注意力圖,以解決這一挑戰(zhàn)。大量實驗證明了本文方法在提高圖像準(zhǔn)確性和語義忠實度方面的有效性,特別是在捕捉復(fù)雜交互概念方面,這是許多Baseline生成模型難以處理的。此外,通過各種協(xié)議和針對HOI生成的用戶調(diào)查量化了我們的改進,提供了有價值的見解,并為該領(lǐng)域未來的探索鋪平了道路。


本文轉(zhuǎn)自AI生成未來 ,作者:Jian-Yu Jiang-Lin等


原文鏈接:??https://mp.weixin.qq.com/s/gw5Iy5nYascbBAtVJPxy2w??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦