自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景

發(fā)布于 2024-8-28 09:23
瀏覽
0收藏

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2408.13858

亮點直擊

  • 定義與標準:本文提供了一個明確的實驗性復雜場景定義,并引入了復雜性分解標準(CDC),以有效管理復雜提示。
  • CxD框架:受藝術(shù)創(chuàng)作過程的啟發(fā),本文提出了一種無需訓練的復雜擴散(CxD)框架,將復雜場景圖像的生成分為三個階段:構(gòu)圖、繪畫和潤色。
  • 驗證與性能:大量實驗表明,CxD能夠生成高質(zhì)量、一致且多樣的復雜場景圖像,即使在處理復雜提示時也表現(xiàn)出色。

總結(jié)速覽

解決的問題

  • 復雜場景的生成不足:盡管文本生成圖像的擴散模型在圖像質(zhì)量上取得了顯著進展,但復雜場景的生成仍然相對未被充分探索。
  • “復雜場景”定義不明確:關(guān)于“復雜場景”的具體定義尚不清晰,導致難以有效處理這類生成任務。

提出的方案

  • 復雜場景的精確定義:首先對復雜場景進行了精確定義,明確了其構(gòu)成和特點。
  • 復雜分解標準(CDC)的引入:基于對復雜場景的定義,提出了一套復雜分解標準(Complex Decomposition Criteria,CDC),用于管理和處理復雜提示。
  • 復雜擴散(CxD)框架:提出了一種無訓練需求的擴散框架——復雜擴散(Complex Diffusion,CxD),將生成過程分為三個階段:構(gòu)圖、繪畫和潤色。

應用的技術(shù)

  • 大語言模型(LLMs)的鏈式思維:利用LLMs的強大鏈式思維能力,根據(jù)CDC對復雜提示進行分解,管理構(gòu)圖和布局。
  • 注意力調(diào)制方法:開發(fā)了一種注意力調(diào)制方法,將簡單提示引導至特定區(qū)域,以完成復雜場景的繪畫。
  • 潤色模型:將LLM的詳細輸出注入到潤色模型中,增強圖像細節(jié),從而實現(xiàn)潤色階段。

達到的效果

  • 生成高質(zhì)量圖像:大量實驗表明,CxD在生成高質(zhì)量、語義一致且視覺上多樣的復雜場景圖像方面表現(xiàn)優(yōu)異。
  • 顯著提升:即使面對復雜提示,CxD也表現(xiàn)出顯著的提升,優(yōu)于先前的最先進方法(SOTA),在處理復雜場景的圖像生成任務中顯示出明顯的優(yōu)勢。

方法:CxD

本節(jié)介紹了無訓練需求的框架CxD,該框架模擬了藝術(shù)家的繪畫過程,將復雜場景的生成分為三個階段:構(gòu)圖、繪畫和潤色,如下圖3所示。首先,基于復雜場景提示,在大語言模型(LLMs)中使用鏈式思維(Chain-of-Thought,CoT)方法進行構(gòu)圖。LLM提取實體和屬性,對實體進行重新措辭,合并它們,并根據(jù)復雜分解標準(CDC)劃分背景并分配布局。隨后,CxD在每個采樣步驟中計算并結(jié)合復雜和簡單的交叉注意力圖。最后,將LLM提取的屬性注入ControlNet tile中,以進行詳細潤色。

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

使用LLMs進行構(gòu)圖與布局生成

實體提取

在接收到用戶提供的復雜場景y提示后,利用LLM的高級語言理解和推理能力,從提示中提取實體E及其對應的屬性A。這個過程可以描述如下:

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

提示的重新措辭
受RPG的啟發(fā),該方法利用LLM對提示進行重新措辭并使用鏈式思維(CoT)來規(guī)劃區(qū)域劃分。研究者們同樣使用LLM基于提取的實體E及其對應的屬性A,將原始復雜提示重新措辭為子提示。設(shè)計這些子提示時,盡可能與原始復雜提示中的相關(guān)描述保持一致。此過程可以表示為:

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

提示的合并或拆分

在重新措辭后,子提示相比原始的復雜提示已經(jīng)簡化了很多。然而,無法保證所有的子提示都足夠簡單,以便生成模型處理,因為其中一些可能仍然相對復雜。此外,有些子提示本身可能非常簡單,即使將它們組合在一起,整體提示對生成模型來說可能依然相對簡單。為確保圖像生成的質(zhì)量和效率,我們使用LLM根據(jù)復雜分解標準(CDC)對子提示進行合并或拆分。合并或拆分的結(jié)果被記錄為簡單提示。

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

布局分配

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

最后,按布局面積大小的降序排列LLM分配的布局,并相應地調(diào)整簡單提示的順序。這種方法與藝術(shù)家優(yōu)先關(guān)注主要對象的實踐一致,并有助于在圖像生成過程中避免較小的對象被較大的對象遮擋。

交叉注意力調(diào)制

如前文分析,擴散模型在處理包含超過四個概念的復雜場景時往往效果較差。為了解決這一挑戰(zhàn),對交叉注意力進行調(diào)制,以適應LLM生成的構(gòu)圖,從而有效處理復雜場景提示,如下圖4所示。

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

提示批處理

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

在調(diào)制結(jié)果后,根據(jù)邊界框的面積,將所有簡單提示的去噪潛變量結(jié)果進行拼接,以實現(xiàn)對位置關(guān)系的控制。未被邊界框覆蓋的區(qū)域則填充背景去噪潛變量的結(jié)果。將這個過程定義為:

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

其中, w是用于平衡復雜提示和簡單提示貢獻的權(quán)重。


為了應對復雜場景的挑戰(zhàn),我們將復雜提示分解為更簡單的提示,以管理概念過載。LLM提供的邊界框幫助為每個簡單提示創(chuàng)建精確的潛變量表示,確保準確的位置控制。獨立生成每個潛變量可以最小化實體之間的沖突??傊?,CxD有效地解決了與復雜場景相關(guān)的問題。

使用ControlNet-tile模型進行潤色

本文的方法有效地生成了符合復雜提示描述的圖像。然而,當實體和屬性的數(shù)量超出預訓練擴散模型的能力時,可能會丟失或模糊一些與復雜提示無關(guān)的局部細節(jié)。為了解決這一問題,使用潤色模型來精細化結(jié)果,類似于藝術(shù)家在畫作上進行的最后潤色。將LLM提取的實體和屬性作為細節(jié)提供給ControlNet 擴展——ControlNet-tile模型,該模型通過修正缺陷和添加新細節(jié)來增強圖像。應用ControlNet-tile后,圖像保持原有的語義,但在細節(jié)和紋理上獲得了更高的清晰度。因此,我們通過構(gòu)圖、繪畫和潤色三個階段完成了復雜場景圖像的創(chuàng)建,這與藝術(shù)家的創(chuàng)作過程類似。

實驗

實驗設(shè)置

對于CxD框架,使用了開源的LLaMA-2 13B版本作為大語言模型(LLM),并使用了Stable Diffusion XL版本作為預訓練擴散模型。然而,CxD被設(shè)計為一個通用且可擴展的框架,能夠集成各種LLM架構(gòu)。所有實驗均在NVIDIA RTX 3090 GPU上進行。使用CxD生成復雜場景圖像大約需要2分鐘,包括處理復雜提示所需的時間。我們精心設(shè)計了任務感知模板和高質(zhì)量的上下文示例,以有效利用LLM的鏈式思維(CoT)能力。

質(zhì)量評估

評估了CxD在各種復雜性指標下的表現(xiàn),包括概念數(shù)量、空間位置和沖突關(guān)系。下圖1展示了SD XL模型和CxD的結(jié)果對比。頂部一行顯示,SD XL在處理包含五個實體和屬性的提示時,面臨著高復雜性的挑戰(zhàn),包括空間定位的失真和不準確,同時也往往忽視實體之間的沖突。相比之下,CxD能夠有效管理高復雜度、精確的空間安排和沖突實體,生成了一致和諧、視覺上令人愉悅的圖像。

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

將CxD與之前的最先進文本到圖像模型進行比較,包括SDXL、LDM+ 、DALLE-3 和RPG。LDM+ 和 RPG 利用LLM進行構(gòu)圖輔助。如下圖5所示,SDXL 和 LDM+ 在處理復雜提示時表現(xiàn)不佳,生成的圖像未能完全滿足提示要求。雖然 DALLE-3 和 RPG 能夠有效捕捉整體內(nèi)容,但在復雜提示的局部細節(jié)上有時會有所遺漏(例如圖5中的紅色部分)。相比之下,CxD將復雜提示分解為簡單提示,確保沒有遺漏任何實體或?qū)傩浴R虼?,CxD 在管理整體語義和局部細節(jié)方面表現(xiàn)出色,顯示出其在處理復雜場景方面的有效性。

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

定量實驗

使用 T2I-Compbench 基準對 CxD 模型與之前的最先進文本到圖像模型進行了比較。如下表1所示,CxD 模型在通用文本到圖像生成和復雜生成任務中均優(yōu)于所有其他模型,其中 RPG 排名第二。這突顯了該方法在處理復雜場景生成任務中的優(yōu)越性。本文的模型在大多數(shù)任務中設(shè)立了新的最先進基準,特別是在對象關(guān)系和復雜場景方面表現(xiàn)突出,顯著優(yōu)于第二名的方法。這一卓越表現(xiàn)歸功于我們提出的復雜分解標準(CDC)與這些任務的強對齊,展示了該方法在解決復雜場景生成問題中的優(yōu)越性。

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

消融研究

對CxD框架的各個組件進行了評估:(a) 復雜提示潛變量,(b) 背景提示潛變量,(c) 注意力增強調(diào)制,和(d) 圖像潤色,如下圖6所示。第一列展示了沒有復雜提示潛變量的圖像,結(jié)果為不連貫和不一致的輸出。第二列缺少背景提示潛變量,顯示的背景不符合提示要求。第三列未進行注意力增強調(diào)制,結(jié)果是實體被遮擋。第四列缺少修改,生成的圖像由于實體過多而細節(jié)模糊。最后一列展示了CxD框架的輸出,保持了語義并增強了細節(jié),突顯了CxD每個組件在生成復雜場景中的重要性。

像藝術(shù)家一樣畫畫:通過構(gòu)圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區(qū)

結(jié)論

CxD,一種無訓練需求的擴散框架,旨在解決復雜場景生成的挑戰(zhàn)。本文精確定義了“復雜場景”,并提供了一套復雜分解標準(CDC),以幫助人類和大語言模型(LLMs)有效處理復雜場景提示。CxD框架將生成過程分為三個階段——構(gòu)圖、繪畫和潤色——模擬傳統(tǒng)藝術(shù)家的繪畫方法。實驗結(jié)果表明,CxD 在生成復雜場景方面表現(xiàn)良好。未來的工作將集中在集成額外的模態(tài)數(shù)據(jù)作為輸入條件,以進一步增強可控性。


本文轉(zhuǎn)自 AI生成未來 ,作者:Minghao Liu等


原文鏈接:??https://mp.weixin.qq.com/s/CFL1QH4Lt222PLqKE7Gvyw??

收藏
回復
舉報
回復
相關(guān)推薦