自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<samp id="ihybd"></samp>

<big id="ihybd"></big>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯精華

發(fā)布于 2024-8-22 09:29

瀏覽

0收藏

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2408.08332

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

亮點(diǎn)直擊

提出一個(gè)反演網(wǎng)絡(luò)，該網(wǎng)絡(luò)通過預(yù)測噪聲來重建輸入圖像，并被訓(xùn)練為在前一步重建的條件下迭代地校正重建圖像。
對(duì)擴(kuò)散蒸餾過程的一種新興特性進(jìn)行分析。
方法在反演過程中只需要 8 次功能評(píng)估（一次性成本），每次編輯只需 4 次功能評(píng)估，而基于多步擴(kuò)散模型的方法在反演中需要 50 次功能評(píng)估，每次編輯需要 30-50 次功能評(píng)估。本文方法速度顯著提升（每次編輯小于 0.5 秒，而不是大于 3 秒），且在描述性和指令性文本提示設(shè)置中，在文本圖像對(duì)齊和背景保留方面表現(xiàn)出比基于多步擴(kuò)散模型的方法更好的效果。

本文解決了在少步擴(kuò)散模型中精確圖像反演和分解圖像編輯的挑戰(zhàn)。本文引入了一種基于編碼器的迭代反演技術(shù)。反演網(wǎng)絡(luò)以輸入圖像和前一步的重建圖像為條件，允許對(duì)下一步的重建進(jìn)行修正，使其更接近輸入圖像。本文展示了在少步擴(kuò)散模型中，通過對(duì)（自動(dòng)生成的）詳細(xì)文本提示進(jìn)行條件化，可以輕松實(shí)現(xiàn)分解控制。為了操控反演后的圖像，本文凍結(jié)噪聲圖，并修改文本提示中的一個(gè)屬性（可以手動(dòng)修改，也可以通過大型語言模型驅(qū)動(dòng)的指令編輯），從而生成一個(gè)與輸入圖像相似但僅改變了一個(gè)屬性的新圖像。該方法還可以進(jìn)一步控制編輯強(qiáng)度并接受指導(dǎo)性文本提示。本文的方法能夠?qū)崟r(shí)實(shí)現(xiàn)逼真的文本引導(dǎo)圖像編輯，反演只需進(jìn)行8次功能評(píng)估（一次性成本），每次編輯僅需4次功能評(píng)估。本文的方法不僅快速，而且顯著優(yōu)于現(xiàn)有的多步擴(kuò)散編輯技術(shù)。

demo展示

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

方法

預(yù)備知識(shí)

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

單步圖像反演

基于擴(kuò)散的方法在真實(shí)圖像編輯中已顯示出實(shí)現(xiàn)高質(zhì)量分解編輯的有希望結(jié)果。然而，這些依賴于多步擴(kuò)散模型的方法由于其計(jì)算需求而受到限制，每次編輯至少需要4-5秒，使其不適合交互式應(yīng)用。此外，由于設(shè)計(jì)上的根本差異，這些方法無法直接應(yīng)用于少步擴(kuò)散模型。例如，許多基于擴(kuò)散的編輯方法依賴于DDIM反演或DDPM反演將真實(shí)圖像投射到擴(kuò)散噪聲空間。然而，DDIM反演對(duì)小步長和大量反演步驟的要求本質(zhì)上與少步擴(kuò)散模型的設(shè)計(jì)原則相悖。而DDPM反演則容易對(duì)輸入圖像進(jìn)行過擬合，并在編輯后的圖像中產(chǎn)生大量偽影。如下圖8所示，當(dāng)應(yīng)用于少步反演步驟時(shí)，DDIM和DDPM反演都產(chǎn)生次優(yōu)的編輯結(jié)果。

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

一些研究利用對(duì)抗性損失來蒸餾多步擴(kuò)散模型，使少步擴(kuò)散模型的優(yōu)化目標(biāo)類似于GANs。這啟發(fā)本文借鑒GAN反演文獻(xiàn)中的思想，在那里基于編碼器的方法已被證明是高效且可靠的。

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

盡管單步編碼器方法簡單，但它能夠在保持背景細(xì)節(jié)的同時(shí)進(jìn)行令人印象深刻的語義編輯，其性能優(yōu)于DDIM和DDPM反演方法，并成為上圖8中唯一可行的單步反演選項(xiàng)。然而，其結(jié)果在諸如手部和面部區(qū)域會(huì)出現(xiàn)偽影。生成的圖像缺乏清晰度，包含鹽和胡椒噪聲，未能達(dá)到照片級(jí)真實(shí)感。為了解決這個(gè)問題，本文將方法擴(kuò)展到多步反演。

多步圖像反演

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

本文的分析顯示，這個(gè)模型的簡單實(shí)現(xiàn)會(huì)導(dǎo)致預(yù)測的噪聲包含許多高值（> 10）以及來自輸入圖像的過多結(jié)構(gòu)信息，進(jìn)而在重建圖像中產(chǎn)生偽影。此外，更改文本提示對(duì)輸出圖像的影響很小。為了解決這些問題，本文采用了重參數(shù)化技巧，將注入噪聲限制在接近標(biāo)準(zhǔn)高斯分布的范圍內(nèi)。反演網(wǎng)絡(luò)不再直接預(yù)測注入噪聲的值，而是輸出每個(gè)像素的均值和方差，從中采樣出注入的噪聲。這個(gè)修改所需的KL損失為：

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

這得出了最終的訓(xùn)練目標(biāo)：

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

詳細(xì)文字提示條件

注意力驅(qū)動(dòng)的圖像編輯方法通過凍結(jié)自注意力和交叉注意力圖來保持源圖像和目標(biāo)圖像之間的結(jié)構(gòu)相似性。盡管它們?cè)诔Ｒ?guī)多步擴(kuò)散模型中表現(xiàn)良好，但本文發(fā)現(xiàn)它在單步或四步擴(kuò)散模型中過度限制了目標(biāo)圖像的結(jié)構(gòu)，并傾向于在下圖9中產(chǎn)生偽影。

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

為了在少步擴(kuò)散模型中實(shí)現(xiàn)文本引導(dǎo)的圖像編輯，本文提出了一種極其簡單的方法。本文的直覺是，如果文本提示非常詳細(xì)并涵蓋了各個(gè)方面的語義信息，那么在文本提示中修改單個(gè)屬性只會(huì)導(dǎo)致文本embedding的微小變化。因此，源和目標(biāo)采樣軌跡保持足夠接近，從而生成的圖像幾乎相同，除了下圖3中修改的屬性。同樣的直覺也適用于本文在下圖10中展示的真實(shí)圖像編輯。此外，本文可以線性插值詳細(xì)的源和目標(biāo)文本embedding，并在圖像空間中生成平滑的插值，如上圖1和下圖4所示。盡管用戶很難編寫長文本提示，但本文可以輕松利用ChatGPT來擴(kuò)展簡短的文本提示（例如，“請(qǐng)?jiān)敿?xì)描述一張{用戶提供的簡短描述}的圖像”），或者使用LLaVA生成給定圖像的詳細(xì)描述。

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

并行研究表明，僅基于文本embedding而不凍結(jié)注意力圖也可以實(shí)現(xiàn)圖像編輯能力。本文想強(qiáng)調(diào)這兩種方法之間的區(qū)別。為了進(jìn)行對(duì)象替換或風(fēng)格控制，他們?cè)谖谋緀mbedding空間中替換關(guān)鍵詞embedding，而本文使用長而詳細(xì)的文本提示，并直接在文本空間中替換關(guān)鍵詞。為了控制編輯強(qiáng)度，他們重新調(diào)整描述性詞embedding的權(quán)重，或者使用奇異值分解來發(fā)現(xiàn)文本embedding空間中的編輯方向，而本文則直接對(duì)源文本和目標(biāo)文本embedding進(jìn)行線性插值。

局部 Mask

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

為了提供mask的初始化，本文建議使用粗略的注意力mask來表示編輯區(qū)域。受prompt2prompt中局部混合模式的啟發(fā)，本文自動(dòng)提取分辨率為16 × 16的注意力mask，用于僅存在于源提示或目標(biāo)提示中的單詞，在通道維度上求和，并將其除以最大值。此過程生成一個(gè)單通道的注意力mask，其值范圍為0到1，其中編輯區(qū)域以高注意力值為特征，未更改的區(qū)域以低注意力值為特征。默認(rèn)情況下，本文將閾值設(shè)置為0.6，并將連續(xù)的注意力mask轉(zhuǎn)換為二進(jìn)制mask。用戶可以交互式地調(diào)整閾值以控制mask的大小，因?yàn)槊看尉庉嫞?步）需要少于0.5秒。盡管注意力mask非常粗略，但本文展示了它可以顯著改善背景和身份保留，如下圖12所示。在本文的圖中，本文僅使用粗略的注意力mask而不是精確的手動(dòng)mask。

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

需要明確的是，本文的方法僅使用注意力mask來限制編輯區(qū)域，這與在prompt2prompt中通過凍結(jié)注意力圖來實(shí)現(xiàn)結(jié)構(gòu)對(duì)齊的方法不同。本文的方法與注意力凍結(jié)是正交的，可以與之結(jié)合。然而，默認(rèn)情況下，本文在任何時(shí)間步都不凍結(jié)注意力圖，因?yàn)檫@樣做會(huì)強(qiáng)烈限制對(duì)象結(jié)構(gòu)，并且在上圖9中顯示的少步擴(kuò)散模型中容易引入偽影。

基于指令的編輯

在許多編輯場景中，用戶需要更改源提示中的多個(gè)詞才能獲得所需的目標(biāo)提示。例如，當(dāng)用戶希望將一張小狗的圖片更改為小貓的圖片時(shí)，他們需要將“dog”更改為“cat”，并將“puppy”更改為“kitten”，這可能會(huì)顯得繁瑣且不吸引人。

幸運(yùn)的是，針對(duì)大型語言模型（LLM）的指令微調(diào)和文本空間中的語義編輯已經(jīng)得到了充分的研究。本文從一個(gè)基礎(chǔ)指令開始，例如“請(qǐng)對(duì)以下句子做出最小的改變，但...”，然后用戶只需添加任務(wù)特定的指令，如“將狗改為貓。”本文將基礎(chǔ)指令、用戶指令和源提示串聯(lián)在一起，并將它們輸入到LLM中。LLM會(huì)找出最佳的編輯方式并生成目標(biāo)提示。通過這種方式，復(fù)雜的文本編輯由LLM處理，用戶只需輸入簡單的短指令。為了提高效率并節(jié)省內(nèi)存，本文重新使用LLaVA作為本文的LLM，但任何經(jīng)過指令微調(diào)的LLM都可以替換使用。LLaVA構(gòu)建在Vicuna 之上，即使經(jīng)過視覺和語言任務(wù)的微調(diào)后，仍然可以執(zhí)行文本編輯任務(wù)。實(shí)驗(yàn)表明，這種簡單的方法在上圖1、下圖6和下表3中表現(xiàn)良好。

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

實(shí)驗(yàn)

訓(xùn)練細(xì)節(jié)

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

定量比較

PIE-Bench 數(shù)據(jù)集包含 700 張圖像，每張圖像對(duì)應(yīng) 10 種不同的編輯類型。每個(gè)示例包括一個(gè)源提示、目標(biāo)提示、指令提示和源圖像。在描述性設(shè)置中，僅使用源提示和目標(biāo)提示進(jìn)行文本指導(dǎo)，而在指令性設(shè)置中，僅使用指令提示。

然而，PIE-Bench 數(shù)據(jù)集僅提供簡短的文本提示，而長且詳細(xì)的文本提示對(duì)于確保解耦編輯和防止偽影是必要的。為了在描述性設(shè)置中確保公平比較，本文使用數(shù)據(jù)集中的簡短源提示和目標(biāo)提示，并在第一次采樣步驟中凍結(jié)注意力圖。在指令性設(shè)置中，本文使用 LLaVA 生成一個(gè)長的源標(biāo)題，并遵循 PIE-Bench 的簡短指令以獲得一個(gè)長的目標(biāo)提示，如前文中所討論。本文的結(jié)果顯示，與當(dāng)前的最新方法相比，本文的方法在描述性和指令性設(shè)置中都能更好地遵循文本指導(dǎo)并保留背景（見上表 1 和下表 3）。

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

定性比較

本文的方法本質(zhì)上支持多種反演步驟。在單步反演的情況下，DDIM反演會(huì)產(chǎn)生大量偽影，而 DDPM反演生成的圖像雖然具有目標(biāo)屬性，但在上圖8中未能與輸入圖像相似。相比之下，本文的方法成功生成了與輸入圖像非常相似的正確編輯，盡管在手部和面部區(qū)域有輕微的偽影，以及圖像中的椒鹽噪聲。在考慮四步反演時(shí)，所有方法相較于單步反演都有更好的結(jié)果。然而，當(dāng)執(zhí)行大的結(jié)構(gòu)變化（例如，將狗變成貓）時(shí)，DDIM反演和DDPM反演容易產(chǎn)生較大的偽影，而本文的方法在上圖8中實(shí)現(xiàn)了更高的身份保留和逼真的編輯效果。

此外，本文在下圖5中對(duì)比分析了本文的四步方法和基于多步擴(kuò)散模型的圖像編輯方法，該方法使用描述性提示作為指導(dǎo)。InfEdit和 Pix2PixZero扭曲了房屋、泰迪熊和吉他等物體的結(jié)構(gòu)。此外，Ledits 和 Ledits++ 在進(jìn)行大規(guī)模結(jié)構(gòu)變化（例如添加帽子或?qū)⒛腥俗兂膳耍r(shí)遇到了困難。相比之下，本文的方法在進(jìn)行紋理和結(jié)構(gòu)變化的逼真編輯時(shí)表現(xiàn)出色，同時(shí)保持了強(qiáng)大的身份保留。與同樣依賴于 SDXL-Turbo 的同期工作 ReNoise 相比，本文每次反演只需要 8 次 NFE，而不是 36 次 NFE，更好地保留了面部身份，并在補(bǔ)充圖14中產(chǎn)生更少的偽影。

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

同樣，本文在上圖6中將本文的方法與其他基于指令的方法進(jìn)行了比較，這些方法使用指導(dǎo)性提示作為指導(dǎo)。雖然 InstructPix2Pix 及其變體需要大規(guī)模的監(jiān)督訓(xùn)練集、計(jì)算密集型訓(xùn)練和多步采樣，而本文的反演網(wǎng)絡(luò)通過重建損失進(jìn)行無監(jiān)督訓(xùn)練，只需要四步采樣，本文的方法在身份保留（從貓到狗）和文本提示對(duì)齊（從毛衣到T恤）方面表現(xiàn)更好。

消融實(shí)驗(yàn)

本文通過消融研究驗(yàn)證了框架中每個(gè)組件的必要性。首先，本文可視化了不同反演步數(shù)下的反演結(jié)果。本文的研究表明，多步反演對(duì)于保持面部身份和防止模糊偽影是必不可少的（見下圖11）。隨后，本文使用1萬張驗(yàn)證圖像計(jì)算重建指標(biāo)，結(jié)果顯示，隨著反演步數(shù)的增加，重建質(zhì)量持續(xù)改善（見下表2）。此外，本文證明了詳細(xì)的文本提示條件對(duì)于結(jié)構(gòu)保留和防止背景偽影至關(guān)重要（見上圖10）。最后，本文展示了局部掩蔽對(duì)于防止背景結(jié)構(gòu)變化和身份偏移的重要性（見上圖12）。

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

Limitations and Societal Impact

首先，本文的方法依賴于LLaVA來生成詳細(xì)的描述。然而，由于本文只進(jìn)行少步反演，計(jì)算密集的LLaVA模型成為了瓶頸。因此，需要探索其他輕量級(jí)的描述生成模型，以實(shí)現(xiàn)實(shí)時(shí)圖像反演。其次，雖然注意力mask可以有效地限定編輯區(qū)域，但它們通常不夠精確，可能會(huì)包含附近的區(qū)域，增加注意力閾值也無法完全解決這個(gè)問題。這種不精確可能導(dǎo)致輕微的身份偏移，特別是當(dāng)編輯區(qū)域靠近人臉時(shí)。本文在下圖13中展示了如何通過使用用戶提供的粗略mask來減輕這一問題。最后，本文的方法無法進(jìn)行大幅度姿勢改變（例如，將一個(gè)奔跑的人變?yōu)樽娜耍?，如下圖15所示。

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

ECCV`24 | 少步比多步好？TurboEdit:少步擴(kuò)散和解耦控制的實(shí)時(shí)精確圖像編輯-AI.x社區(qū)

作為一種生成式圖像編輯工具，本文的方法提供了創(chuàng)造性的機(jī)會(huì)和挑戰(zhàn)。盡管它實(shí)現(xiàn)了創(chuàng)新的圖像編輯能力，但也引發(fā)了關(guān)于操控?cái)?shù)據(jù)、誤導(dǎo)信息和垃圾信息傳播的擔(dān)憂。其中一個(gè)顯著的問題是故意圖像操控的增加，即所謂的“深度偽造”，這種現(xiàn)象對(duì)女性的影響尤為嚴(yán)重。

結(jié)論

根據(jù)本文所知，本文的方法是首個(gè)在少步擴(kuò)散模型背景下探索圖像編輯的工作，也是首個(gè)在擴(kuò)散模型中探索基于編碼器反演的工作。本文證明，通過對(duì)（自動(dòng)生成的）詳細(xì)文本提示進(jìn)行條件控制，可以在少步擴(kuò)散模型中輕松實(shí)現(xiàn)解耦控制。本文的方法使用戶能夠以交互速度進(jìn)行逼真的文本引導(dǎo)圖像編輯，反演和編輯過程都在毫秒內(nèi)完成。

本文轉(zhuǎn)自 AI生成未來，作者：Zongze Wu等

原文鏈接:??https://mp.weixin.qq.com/s/ER3j3fanbWp9RIq9GXlTqQ??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

只需一步！One-Step圖像轉(zhuǎn)換來了！親測效果驚艷！

angel ? 4509瀏覽 ? 0回復(fù)
圖像生成/編輯應(yīng)用落地必不可少！MuLAn：首個(gè)實(shí)例級(jí)RGBA分解數(shù)據(jù)集

angel ? 3506瀏覽 ? 0回復(fù)
谷歌將免費(fèi)提供3款，生成式AI圖像編輯工具

Aceryt ? 3009瀏覽 ? 0回復(fù)
實(shí)時(shí)可編輯3D重建！鼠標(biāo)拖拽就能控制，港大VAST浙大聯(lián)合出品

Crystalcxt ? 2204瀏覽 ? 0回復(fù)
加速擴(kuò)散模型，最快1步生成SOTA級(jí)圖片，字節(jié)Hyper-SD開源了

輕薄滴假象 ? 2724瀏覽 ? 0回復(fù)
生成一個(gè)好故事！StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測器必不可少（南開&字節(jié)）

angel ? 3307瀏覽 ? 0回復(fù)
邁向統(tǒng)一擴(kuò)散框架！Adobe提出RGB?X：雙重利好下游編輯任務(wù) | SIGGRAPH'24

angel ? 3159瀏覽 ? 0回復(fù)
時(shí)序預(yù)測Decoder中的時(shí)間步依賴問題

海因斯DK ? 3187瀏覽 ? 0回復(fù)
ECCV`24 | 比DragDiffusion快100倍！RegionDrag：快·準(zhǔn)·好的圖像編輯方法！港大&牛津

angel ? 2455瀏覽 ? 0回復(fù)
圖像文本擦除無痕跡！復(fù)旦提出EAFormer：最新場景文本分割新SOTA！(ECCV`24)

angel ? 2411瀏覽 ? 0回復(fù)
ECCV`24 | 螞蟻集團(tuán)開源風(fēng)格控制新SOTA!StyleTokenizer：零樣本精確控制圖像生成

angel ? 2749瀏覽 ? 0回復(fù)
靈活精確可控編輯！Dice:首個(gè)離散擴(kuò)散模型精確反演方法！

angel ? 1893瀏覽 ? 0回復(fù)
圖像編輯多任務(wù)一網(wǎng)打盡！PromptFix，新型擴(kuò)散模型&大規(guī)模視覺指令數(shù)據(jù)集（羅切斯特大學(xué)&微軟）

angel ? 2855瀏覽 ? 0回復(fù)
拋棄UNet，首個(gè)基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大

angel ? 2255瀏覽 ? 0回復(fù)
釋放你的想象！支持25種復(fù)雜編輯類型！浙大等提出AnyEdit：統(tǒng)一高質(zhì)量圖像編輯框架

angel ? 3168瀏覽 ? 0回復(fù)
寫給大模型新人的經(jīng)驗(yàn)，刷到少走三年彎路！

丁師兄大模型 ? 2774瀏覽 ? 0回復(fù)
只需一步！上交&哈佛提出FluxSR：首個(gè)基于12B+大模型的單步擴(kuò)散真實(shí)世界超分模型

angel ? 2813瀏覽 ? 0回復(fù)
提示詞工程——AI應(yīng)用必不可少的技術(shù)

mb67d42021bb3f1 ? 1828瀏覽 ? 0回復(fù)
CycleFlow+擴(kuò)散先驗(yàn)讓OmniPaint引領(lǐng)圖像編輯新時(shí)代

angel ? 1460瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實(shí)戰(zhàn)教程 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

2025年最值得關(guān)注的十大多模態(tài)大語言模型！ 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復(fù)

上一篇：全面提升！上海交大等聯(lián)合發(fā)布MegaFusion：無須微調(diào)的高效高分辨率圖像生成方法

下一篇：面向大語言模型的檢索增強(qiáng)生成(RAG)技術(shù)：綜述

社區(qū)精華內(nèi)容

目錄