自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯 精華

發(fā)布于 2024-8-22 09:29
瀏覽
0收藏

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2408.08332

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

亮點(diǎn)直擊

  • 提出一個(gè)反演網(wǎng)絡(luò),該網(wǎng)絡(luò)通過預(yù)測噪聲來重建輸入圖像,并被訓(xùn)練為在前一步重建的條件下迭代地校正重建圖像。
  • 對(duì)擴(kuò)散蒸餾過程的一種新興特性進(jìn)行分析。
  • 方法在反演過程中只需要 8 次功能評(píng)估(一次性成本),每次編輯只需 4 次功能評(píng)估,而基于多步擴(kuò)散模型的方法在反演中需要 50 次功能評(píng)估,每次編輯需要 30-50 次功能評(píng)估。本文方法速度顯著提升(每次編輯小于 0.5 秒,而不是大于 3 秒),且在描述性和指令性文本提示設(shè)置中,在文本圖像對(duì)齊和背景保留方面表現(xiàn)出比基于多步擴(kuò)散模型的方法更好的效果。


本文解決了在少步擴(kuò)散模型中精確圖像反演和分解圖像編輯的挑戰(zhàn)。本文引入了一種基于編碼器的迭代反演技術(shù)。反演網(wǎng)絡(luò)以輸入圖像和前一步的重建圖像為條件,允許對(duì)下一步的重建進(jìn)行修正,使其更接近輸入圖像。本文展示了在少步擴(kuò)散模型中,通過對(duì)(自動(dòng)生成的)詳細(xì)文本提示進(jìn)行條件化,可以輕松實(shí)現(xiàn)分解控制。為了操控反演后的圖像,本文凍結(jié)噪聲圖,并修改文本提示中的一個(gè)屬性(可以手動(dòng)修改,也可以通過大型語言模型驅(qū)動(dòng)的指令編輯),從而生成一個(gè)與輸入圖像相似但僅改變了一個(gè)屬性的新圖像。該方法還可以進(jìn)一步控制編輯強(qiáng)度并接受指導(dǎo)性文本提示。本文的方法能夠?qū)崟r(shí)實(shí)現(xiàn)逼真的文本引導(dǎo)圖像編輯,反演只需進(jìn)行8次功能評(píng)估(一次性成本),每次編輯僅需4次功能評(píng)估。本文的方法不僅快速,而且顯著優(yōu)于現(xiàn)有的多步擴(kuò)散編輯技術(shù)。

demo展示

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

方法

預(yù)備知識(shí)

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

單步圖像反演

基于擴(kuò)散的方法在真實(shí)圖像編輯中已顯示出實(shí)現(xiàn)高質(zhì)量分解編輯的有希望結(jié)果。然而,這些依賴于多步擴(kuò)散模型的方法由于其計(jì)算需求而受到限制,每次編輯至少需要4-5秒,使其不適合交互式應(yīng)用。此外,由于設(shè)計(jì)上的根本差異,這些方法無法直接應(yīng)用于少步擴(kuò)散模型。例如,許多基于擴(kuò)散的編輯方法依賴于DDIM反演或DDPM反演將真實(shí)圖像投射到擴(kuò)散噪聲空間。然而,DDIM反演對(duì)小步長和大量反演步驟的要求本質(zhì)上與少步擴(kuò)散模型的設(shè)計(jì)原則相悖。而DDPM反演則容易對(duì)輸入圖像進(jìn)行過擬合,并在編輯后的圖像中產(chǎn)生大量偽影。如下圖8所示,當(dāng)應(yīng)用于少步反演步驟時(shí),DDIM和DDPM反演都產(chǎn)生次優(yōu)的編輯結(jié)果。

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

一些研究利用對(duì)抗性損失來蒸餾多步擴(kuò)散模型,使少步擴(kuò)散模型的優(yōu)化目標(biāo)類似于GANs。這啟發(fā)本文借鑒GAN反演文獻(xiàn)中的思想,在那里基于編碼器的方法已被證明是高效且可靠的。

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

盡管單步編碼器方法簡單,但它能夠在保持背景細(xì)節(jié)的同時(shí)進(jìn)行令人印象深刻的語義編輯,其性能優(yōu)于DDIM和DDPM反演方法,并成為上圖8中唯一可行的單步反演選項(xiàng)。然而,其結(jié)果在諸如手部和面部區(qū)域會(huì)出現(xiàn)偽影。生成的圖像缺乏清晰度,包含鹽和胡椒噪聲,未能達(dá)到照片級(jí)真實(shí)感。為了解決這個(gè)問題,本文將方法擴(kuò)展到多步反演。

多步圖像反演

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

本文的分析顯示,這個(gè)模型的簡單實(shí)現(xiàn)會(huì)導(dǎo)致預(yù)測的噪聲包含許多高值(> 10)以及來自輸入圖像的過多結(jié)構(gòu)信息,進(jìn)而在重建圖像中產(chǎn)生偽影。此外,更改文本提示對(duì)輸出圖像的影響很小。為了解決這些問題,本文采用了重參數(shù)化技巧,將注入噪聲限制在接近標(biāo)準(zhǔn)高斯分布的范圍內(nèi)。反演網(wǎng)絡(luò)不再直接預(yù)測注入噪聲的值,而是輸出每個(gè)像素的均值和方差,從中采樣出注入的噪聲。這個(gè)修改所需的KL損失為:

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

這得出了最終的訓(xùn)練目標(biāo):

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

詳細(xì)文字提示條件

注意力驅(qū)動(dòng)的圖像編輯方法通過凍結(jié)自注意力和交叉注意力圖來保持源圖像和目標(biāo)圖像之間的結(jié)構(gòu)相似性。盡管它們?cè)诔R?guī)多步擴(kuò)散模型中表現(xiàn)良好,但本文發(fā)現(xiàn)它在單步或四步擴(kuò)散模型中過度限制了目標(biāo)圖像的結(jié)構(gòu),并傾向于在下圖9中產(chǎn)生偽影。

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

為了在少步擴(kuò)散模型中實(shí)現(xiàn)文本引導(dǎo)的圖像編輯,本文提出了一種極其簡單的方法。本文的直覺是,如果文本提示非常詳細(xì)并涵蓋了各個(gè)方面的語義信息,那么在文本提示中修改單個(gè)屬性只會(huì)導(dǎo)致文本embedding的微小變化。因此,源和目標(biāo)采樣軌跡保持足夠接近,從而生成的圖像幾乎相同,除了下圖3中修改的屬性。同樣的直覺也適用于本文在下圖10中展示的真實(shí)圖像編輯。此外,本文可以線性插值詳細(xì)的源和目標(biāo)文本embedding,并在圖像空間中生成平滑的插值,如上圖1和下圖4所示。盡管用戶很難編寫長文本提示,但本文可以輕松利用ChatGPT來擴(kuò)展簡短的文本提示(例如,“請(qǐng)?jiān)敿?xì)描述一張{用戶提供的簡短描述}的圖像”),或者使用LLaVA生成給定圖像的詳細(xì)描述。

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

并行研究表明,僅基于文本embedding而不凍結(jié)注意力圖也可以實(shí)現(xiàn)圖像編輯能力。本文想強(qiáng)調(diào)這兩種方法之間的區(qū)別。為了進(jìn)行對(duì)象替換或風(fēng)格控制,他們?cè)谖谋緀mbedding空間中替換關(guān)鍵詞embedding,而本文使用長而詳細(xì)的文本提示,并直接在文本空間中替換關(guān)鍵詞。為了控制編輯強(qiáng)度,他們重新調(diào)整描述性詞embedding的權(quán)重,或者使用奇異值分解來發(fā)現(xiàn)文本embedding空間中的編輯方向,而本文則直接對(duì)源文本和目標(biāo)文本embedding進(jìn)行線性插值。

局部 Mask

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

為了提供mask的初始化,本文建議使用粗略的注意力mask來表示編輯區(qū)域。受prompt2prompt中局部混合模式的啟發(fā),本文自動(dòng)提取分辨率為16 × 16的注意力mask,用于僅存在于源提示或目標(biāo)提示中的單詞,在通道維度上求和,并將其除以最大值。此過程生成一個(gè)單通道的注意力mask,其值范圍為0到1,其中編輯區(qū)域以高注意力值為特征,未更改的區(qū)域以低注意力值為特征。默認(rèn)情況下,本文將閾值設(shè)置為0.6,并將連續(xù)的注意力mask轉(zhuǎn)換為二進(jìn)制mask。用戶可以交互式地調(diào)整閾值以控制mask的大小,因?yàn)槊看尉庉嫞?步)需要少于0.5秒。盡管注意力mask非常粗略,但本文展示了它可以顯著改善背景和身份保留,如下圖12所示。在本文的圖中,本文僅使用粗略的注意力mask而不是精確的手動(dòng)mask。

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

需要明確的是,本文的方法僅使用注意力mask來限制編輯區(qū)域,這與在prompt2prompt中通過凍結(jié)注意力圖來實(shí)現(xiàn)結(jié)構(gòu)對(duì)齊的方法不同。本文的方法與注意力凍結(jié)是正交的,可以與之結(jié)合。然而,默認(rèn)情況下,本文在任何時(shí)間步都不凍結(jié)注意力圖,因?yàn)檫@樣做會(huì)強(qiáng)烈限制對(duì)象結(jié)構(gòu),并且在上圖9中顯示的少步擴(kuò)散模型中容易引入偽影。

基于指令的編輯

在許多編輯場景中,用戶需要更改源提示中的多個(gè)詞才能獲得所需的目標(biāo)提示。例如,當(dāng)用戶希望將一張小狗的圖片更改為小貓的圖片時(shí),他們需要將“dog”更改為“cat”,并將“puppy”更改為“kitten”,這可能會(huì)顯得繁瑣且不吸引人。


幸運(yùn)的是,針對(duì)大型語言模型(LLM)的指令微調(diào)和文本空間中的語義編輯已經(jīng)得到了充分的研究。本文從一個(gè)基礎(chǔ)指令開始,例如“請(qǐng)對(duì)以下句子做出最小的改變,但...”,然后用戶只需添加任務(wù)特定的指令,如“將狗改為貓。”本文將基礎(chǔ)指令、用戶指令和源提示串聯(lián)在一起,并將它們輸入到LLM中。LLM會(huì)找出最佳的編輯方式并生成目標(biāo)提示。通過這種方式,復(fù)雜的文本編輯由LLM處理,用戶只需輸入簡單的短指令。為了提高效率并節(jié)省內(nèi)存,本文重新使用LLaVA作為本文的LLM,但任何經(jīng)過指令微調(diào)的LLM都可以替換使用。LLaVA構(gòu)建在Vicuna 之上,即使經(jīng)過視覺和語言任務(wù)的微調(diào)后,仍然可以執(zhí)行文本編輯任務(wù)。實(shí)驗(yàn)表明,這種簡單的方法在上圖1、下圖6和下表3中表現(xiàn)良好。

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

實(shí)驗(yàn)

訓(xùn)練細(xì)節(jié)

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

定量比較

PIE-Bench 數(shù)據(jù)集包含 700 張圖像,每張圖像對(duì)應(yīng) 10 種不同的編輯類型。每個(gè)示例包括一個(gè)源提示、目標(biāo)提示、指令提示和源圖像。在描述性設(shè)置中,僅使用源提示和目標(biāo)提示進(jìn)行文本指導(dǎo),而在指令性設(shè)置中,僅使用指令提示。

然而,PIE-Bench 數(shù)據(jù)集僅提供簡短的文本提示,而長且詳細(xì)的文本提示對(duì)于確保解耦編輯和防止偽影是必要的。為了在描述性設(shè)置中確保公平比較,本文使用數(shù)據(jù)集中的簡短源提示和目標(biāo)提示,并在第一次采樣步驟中凍結(jié)注意力圖。在指令性設(shè)置中,本文使用 LLaVA  生成一個(gè)長的源標(biāo)題,并遵循 PIE-Bench 的簡短指令以獲得一個(gè)長的目標(biāo)提示,如前文中所討論。本文的結(jié)果顯示,與當(dāng)前的最新方法相比,本文的方法在描述性和指令性設(shè)置中都能更好地遵循文本指導(dǎo)并保留背景(見上表 1 和下表 3)。

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

定性比較

本文的方法本質(zhì)上支持多種反演步驟。在單步反演的情況下,DDIM反演會(huì)產(chǎn)生大量偽影,而 DDPM反演生成的圖像雖然具有目標(biāo)屬性,但在上圖8中未能與輸入圖像相似。相比之下,本文的方法成功生成了與輸入圖像非常相似的正確編輯,盡管在手部和面部區(qū)域有輕微的偽影,以及圖像中的椒鹽噪聲。在考慮四步反演時(shí),所有方法相較于單步反演都有更好的結(jié)果。然而,當(dāng)執(zhí)行大的結(jié)構(gòu)變化(例如,將狗變成貓)時(shí),DDIM反演和DDPM反演容易產(chǎn)生較大的偽影,而本文的方法在上圖8中實(shí)現(xiàn)了更高的身份保留和逼真的編輯效果。

此外,本文在下圖5中對(duì)比分析了本文的四步方法和基于多步擴(kuò)散模型的圖像編輯方法,該方法使用描述性提示作為指導(dǎo)。InfEdit和 Pix2PixZero扭曲了房屋、泰迪熊和吉他等物體的結(jié)構(gòu)。此外,Ledits 和 Ledits++ 在進(jìn)行大規(guī)模結(jié)構(gòu)變化(例如添加帽子或?qū)⒛腥俗兂膳耍r(shí)遇到了困難。相比之下,本文的方法在進(jìn)行紋理和結(jié)構(gòu)變化的逼真編輯時(shí)表現(xiàn)出色,同時(shí)保持了強(qiáng)大的身份保留。與同樣依賴于 SDXL-Turbo 的同期工作 ReNoise 相比,本文每次反演只需要 8 次 NFE,而不是 36 次 NFE,更好地保留了面部身份,并在補(bǔ)充圖14中產(chǎn)生更少的偽影。

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

同樣,本文在上圖6中將本文的方法與其他基于指令的方法進(jìn)行了比較,這些方法使用指導(dǎo)性提示作為指導(dǎo)。雖然 InstructPix2Pix 及其變體需要大規(guī)模的監(jiān)督訓(xùn)練集、計(jì)算密集型訓(xùn)練和多步采樣,而本文的反演網(wǎng)絡(luò)通過重建損失進(jìn)行無監(jiān)督訓(xùn)練,只需要四步采樣,本文的方法在身份保留(從貓到狗)和文本提示對(duì)齊(從毛衣到T恤)方面表現(xiàn)更好。

消融實(shí)驗(yàn)

本文通過消融研究驗(yàn)證了框架中每個(gè)組件的必要性。首先,本文可視化了不同反演步數(shù)下的反演結(jié)果。本文的研究表明,多步反演對(duì)于保持面部身份和防止模糊偽影是必不可少的(見下圖11)。隨后,本文使用1萬張驗(yàn)證圖像計(jì)算重建指標(biāo),結(jié)果顯示,隨著反演步數(shù)的增加,重建質(zhì)量持續(xù)改善(見下表2)。此外,本文證明了詳細(xì)的文本提示條件對(duì)于結(jié)構(gòu)保留和防止背景偽影至關(guān)重要(見上圖10)。最后,本文展示了局部掩蔽對(duì)于防止背景結(jié)構(gòu)變化和身份偏移的重要性(見上圖12)。

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

Limitations and Societal Impact

首先,本文的方法依賴于LLaVA來生成詳細(xì)的描述。然而,由于本文只進(jìn)行少步反演,計(jì)算密集的LLaVA模型成為了瓶頸。因此,需要探索其他輕量級(jí)的描述生成模型,以實(shí)現(xiàn)實(shí)時(shí)圖像反演。其次,雖然注意力mask可以有效地限定編輯區(qū)域,但它們通常不夠精確,可能會(huì)包含附近的區(qū)域,增加注意力閾值也無法完全解決這個(gè)問題。這種不精確可能導(dǎo)致輕微的身份偏移,特別是當(dāng)編輯區(qū)域靠近人臉時(shí)。本文在下圖13中展示了如何通過使用用戶提供的粗略mask來減輕這一問題。最后,本文的方法無法進(jìn)行大幅度姿勢改變(例如,將一個(gè)奔跑的人變?yōu)樽娜耍?,如下圖15所示。

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

ECCV`24 | 少步比多步好?TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

作為一種生成式圖像編輯工具,本文的方法提供了創(chuàng)造性的機(jī)會(huì)和挑戰(zhàn)。盡管它實(shí)現(xiàn)了創(chuàng)新的圖像編輯能力,但也引發(fā)了關(guān)于操控?cái)?shù)據(jù)、誤導(dǎo)信息和垃圾信息傳播的擔(dān)憂。其中一個(gè)顯著的問題是故意圖像操控的增加,即所謂的“深度偽造”,這種現(xiàn)象對(duì)女性的影響尤為嚴(yán)重。

結(jié)論

根據(jù)本文所知,本文的方法是首個(gè)在少步擴(kuò)散模型背景下探索圖像編輯的工作,也是首個(gè)在擴(kuò)散模型中探索基于編碼器反演的工作。本文證明,通過對(duì)(自動(dòng)生成的)詳細(xì)文本提示進(jìn)行條件控制,可以在少步擴(kuò)散模型中輕松實(shí)現(xiàn)解耦控制。本文的方法使用戶能夠以交互速度進(jìn)行逼真的文本引導(dǎo)圖像編輯,反演和編輯過程都在毫秒內(nèi)完成。


本文轉(zhuǎn)自 AI生成未來 ,作者:Zongze Wu等


原文鏈接:??https://mp.weixin.qq.com/s/ER3j3fanbWp9RIq9GXlTqQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦