自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一個(gè)LoRA實(shí)現(xiàn)GPT-4o級(jí)圖像編輯!浙大哈佛新模型沖上Hugging Face榜二

人工智能 新聞
隨著Gemini、GPT-4o等商業(yè)大模型把基于文本的圖像編輯這一任務(wù)再次推向高峰,獲取更高質(zhì)量的編輯數(shù)據(jù)用于訓(xùn)練、以及訓(xùn)練更大參數(shù)量的模型似乎成了提高圖像編輯性能的唯一出路。

基于文本指令的圖像編輯任務(wù)一直都是圖像生成、編輯領(lǐng)域的一大熱點(diǎn),從Prompt2prompt到InstructPix2Pix,從EmuEdit再到最新的GPT4o,都在不斷的拔高AI圖像編輯的水平。

總的來說,這些模型可以歸為兩大類:一種是免訓(xùn)練(training-free)圖像編輯,一種是基于訓(xùn)練或微調(diào)的圖像編輯。免訓(xùn)練圖像編輯多通過對(duì)一個(gè)預(yù)訓(xùn)練文生圖diffusion大模型進(jìn)行提示詞替換、操縱注意力圖、圖像反演等操作實(shí)現(xiàn),盡管省去了訓(xùn)練的耗費(fèi),但其操作過程往往較為復(fù)雜且編輯效果不穩(wěn)定、編輯任務(wù)種類單一。

而與之對(duì)應(yīng)的基于訓(xùn)練的方法,則需要通過大量的圖像編輯數(shù)據(jù)來訓(xùn)練,所需數(shù)據(jù)量從幾十萬(wàn)(InstructPix2Pix 300k)到上億不等(Step1X 20M),同時(shí)對(duì)diffusion模型的全量微調(diào)也要消耗大量資源!

之所以需要對(duì)文生圖擴(kuò)散模型進(jìn)行大量數(shù)據(jù)的訓(xùn)練,其主要原因在于預(yù)訓(xùn)練的文生圖模型只能理解生成式的圖像描述,而對(duì)于編輯指令,如「讓這個(gè)女人戴上墨鏡」、「讓這張圖變成吉卜力風(fēng)格」這類話語(yǔ)無法理解,因此需要大量的編輯式指令和圖像對(duì)的微調(diào)、訓(xùn)練。

最近,浙大和哈佛團(tuán)隊(duì)提出了一種新的圖像編輯方法ICEdit,僅需要以往模型0.1%的訓(xùn)練數(shù)據(jù)(50k)以及1%的訓(xùn)練參數(shù)量(200M),就能實(shí)現(xiàn)多種類型高質(zhì)量圖像編輯結(jié)果。

圖片

研究人員認(rèn)為讓圖像編輯「降本增效」的核心要素就是充分利用文生圖模型自身的理解、生成能力,讓其理解編輯指令并直接用于圖像編輯。

圖片

論文地址:https://arxiv.org/pdf/2504.20690

項(xiàng)目主頁(yè):https://river-zhang.github.io/ICEdit-gh-pages/

代碼倉(cāng)庫(kù):https://github.com/River-Zhang/ICEdit

Hugging Face演示:https://huggingface.co/spaces/RiverZ/ICEdit

圖片

ICEdit使用數(shù)據(jù)量以及編輯性能與其他SOTA模型對(duì)比;ICEdit僅用50k數(shù)據(jù)訓(xùn)練就達(dá)到了和10M訓(xùn)練的EmuEdit類似的性能。

ICEdit在hugging face上爆火,登上趨勢(shì)榜前五,引Twitter一眾大V轉(zhuǎn)發(fā)。

圖片

圖片

圖片

圖片

隨著Diffusion Transformer(DiT)文生圖模型(如SD3,F(xiàn)LUX.1 dev等)在可擴(kuò)展性和長(zhǎng)文本語(yǔ)義理解上展現(xiàn)出的極強(qiáng)性能以及生成結(jié)果的極高質(zhì)量,越來越多的工作選擇DiT模型作為基座來完成各種圖像生成任務(wù),這篇論文也同樣基于DiT多模態(tài)大模型來探索其圖像編輯能力。

研究人員發(fā)現(xiàn),當(dāng)使用一種上下文提示詞讓DiT模型來生成類似雙聯(lián)圖形式的結(jié)果時(shí),如「一張雙聯(lián)畫,包含兩張并排的同一個(gè)男人的圖像。左邊是這個(gè)男人站立的一張照片,右邊是他抱著籃球的照片」,生成的左圖和右圖會(huì)保持極強(qiáng)的主體ID,這一特性也被很多工作用來制造Subject-driven generation任務(wù)的數(shù)據(jù)集,如OminiControl,UNO等。

圖片

在上下文提示詞中融入編輯指令后,模型正確理解編輯指令并生成對(duì)應(yīng)結(jié)果。

而再進(jìn)一步,假如有一個(gè)編輯指令是「讓這個(gè)男人抱著籃球」,直接輸入給模型他并不能理解如何生成,但是融入到這種上下文提示詞中,變成「一張雙聯(lián)畫,包含兩張并排的同一個(gè)男人的圖像。左邊是這個(gè)男人站立的一張照片,右邊是同一個(gè)男人,但 {讓這個(gè)男人抱著籃球}」時(shí),研究人員發(fā)現(xiàn)模型就能夠理解指令并生成相同面貌抱著籃球的結(jié)果了。同時(shí)可視化一下「{讓這個(gè)男人抱著籃球}」的注意力圖會(huì)發(fā)現(xiàn),

針對(duì)這個(gè)語(yǔ)句,模型確實(shí)注意到需要發(fā)生編輯的區(qū)域,說明它確實(shí)理解了編輯指令。

此外,將該方法與GPT4o等一眾商業(yè)大模型做對(duì)比,盡管在語(yǔ)義理解、編輯多樣性上相比還有差距,但該模型展現(xiàn)出了極強(qiáng)的人物ID保持、非編輯區(qū)域保持以及指令遵循能力,甚至一定程度上超越GPT4o、Gemini等商業(yè)大模型。

該模型與商用模型相比更開源、低成本、速度也更快(8~10s即可完成一張圖片的編輯),不可謂不強(qiáng)大。

圖片

ICEdit圖像編輯模型與一眾商業(yè)大模型的編輯結(jié)果對(duì)比

兩種免訓(xùn)練的基于上下文理解的圖像編輯框架

如上文提到,雖然模型理解了編輯指令,但它還是在進(jìn)行文生圖,并不知道輸入圖像長(zhǎng)什么樣子,還是無法完成圖像編輯,這該如何解決呢?

基于此,作者嘗試了兩種免訓(xùn)練的架構(gòu)來讓DiT模型能夠既接收參考圖,又根據(jù)上下文編輯指令完成圖像編輯:

圖片

兩種免訓(xùn)練指令編輯框架

第一種框架是基于文生圖DiT模型,該框架流程略微繁瑣一些,簡(jiǎn)單來說就是將待編輯圖像先進(jìn)行圖像反演(inversion),并保留反演過程中模型內(nèi)部的圖像特征,用于后續(xù)注入(與RF-Solver-Edit類似)。

而完成圖像反演后獲得的噪聲圖像,會(huì)與一個(gè)相同尺寸的隨機(jī)初始化噪聲拼接,形式一個(gè)噪聲雙聯(lián)圖,用于圖像去噪。

去噪的過程中接收的提示詞便是融入了編輯指令的上下文提示詞,如「一張雙聯(lián)畫,包含兩張并排的同一個(gè)男人的圖像……同一個(gè)男人,但 {讓這個(gè)男人抱著籃球}」,同時(shí)在去噪的過程中不斷向雙聯(lián)圖左側(cè)的噪聲圖注入原始圖像反演的特征,右側(cè)噪聲則不做操作,最后生成的結(jié)果圖的左側(cè)將進(jìn)行原始圖像的重建,而右側(cè)則會(huì)生成根據(jù)上下文提示詞發(fā)生編輯后的結(jié)果,即這個(gè)男人抱著籃球。

另一個(gè)免訓(xùn)練框架則是基于Inpainting DiT(圖像補(bǔ)全,如FLUX.1 Fill),該框架則十分簡(jiǎn)潔,只需要將待編輯圖像(source image)放置在雙聯(lián)圖左側(cè),右側(cè)則全部設(shè)置為inpainting區(qū)域即可,輸入的提示詞依然是融入了編輯指令的上下文提示詞,可以看到輸出了編輯后的圖像。

總的來說兩種框架的目的都是為了讓模型能接收參考圖像同時(shí)基于上下文指令進(jìn)行編輯,雖然其展現(xiàn)出了出色的編輯效果,但是從圖中可以看到抱著籃球的男人ID還是發(fā)生了一些變化,拿罐頭的女人也發(fā)生了姿勢(shì)改變,成片率依然不高。

混合專家LoRA微調(diào)與test-time scaling大幅提升性能

雖然免訓(xùn)練的方法性能依舊有限且成片率不高,但它可以通過后續(xù)的微調(diào)來提升性能。

作者基于inpainting框架的簡(jiǎn)潔性,在其基礎(chǔ)上使用了來自互聯(lián)網(wǎng)上的公共編輯數(shù)據(jù)集(MagicBrush 9k+OmniEdit 40k)進(jìn)行了LoRA微調(diào),微調(diào)策略很簡(jiǎn)單,只需要將數(shù)據(jù)集中的編輯指令改為統(tǒng)一的上下文形式指令,即「一張雙聯(lián)畫,包含兩張并排的同一個(gè)場(chǎng)景的圖像,右邊的場(chǎng)景與左邊相同,但 + { 編輯指令 }」。

作者發(fā)現(xiàn)微調(diào)過后模型編輯的成功率大大提高,并且能泛化到許多數(shù)據(jù)集之外的圖像類型編輯上。

然而作者發(fā)現(xiàn)僅僅使用普通的lora在不同的編輯任務(wù)上成功率依然不夠高,并且有些任務(wù)如Remove、style等編輯效果較差。

作者認(rèn)為這是由于不同的編輯任務(wù)需要不同的特征處理模式,而僅靠一個(gè)LoRA難以學(xué)習(xí)所有編輯類型的處理方法,因此采用多LoRA專家的混合訓(xùn)練或許是提高編輯效果的關(guān)鍵。

于是作者借鑒了LLM領(lǐng)域發(fā)揮重要作用的MoE(混合專家模型)方法,將其用在DiT多模態(tài)大模型中,并將LoRA設(shè)置為不同的專家進(jìn)行訓(xùn)練,得到了最終的模型。

盡管采用了MoE+LoRA的形式,模型的訓(xùn)練參數(shù)依然遠(yuǎn)遠(yuǎn)少于SOTA模型(0.2B vs 17B)。

圖片

表1:模型參數(shù)量和性能對(duì)比

圖片

表2:訓(xùn)練數(shù)據(jù)量和性能對(duì)比

圖片

表3:使用LoRA微調(diào)后相比training free性能顯著提升,采用MoE架構(gòu)后性能繼續(xù)上升

訓(xùn)練端結(jié)束,那么推理時(shí)模型的性能還有提升的空間嗎?作者發(fā)現(xiàn)不同的隨機(jī)初始化噪聲會(huì)產(chǎn)生不同的編輯結(jié)果,而這些結(jié)果有的好有的壞,如何讓模型自動(dòng)且快速的生成最佳的結(jié)果交給用戶呢?

圖片

為了解決「不同初始噪聲編輯效果不一」的問題,作者提出適用于圖像編輯任務(wù)的早篩推理時(shí)拓展策略(Early filter inference time scaling)。

簡(jiǎn)單來說,當(dāng)前最常用的FLUX、SD3等DiT架構(gòu)文生圖模型多采用流匹配等技術(shù)訓(xùn)練,這使得其能夠通過極少的推理步數(shù)就能快速生成高質(zhì)量結(jié)果(走直線),許多工作也探索了One-step圖像生成的DiT模型。因此,作者想到利用最初的幾個(gè)step來判斷當(dāng)前初始噪聲生成的效果是否滿足編輯要求,如果不滿足則直接略過考慮下一個(gè)候選。

圖片

Early filter inference time scaling

案例要求將天空變成黑夜的樣子,有的噪聲候選在前4步時(shí)是天亮的樣子,進(jìn)行完整的50步推理依然是天亮的樣子,不滿足編輯的要求,因此可以用VLM作為判官在前幾步就把這個(gè)不符合的候選去除,節(jié)省推理的步數(shù)耗費(fèi)。

此外,VLM還可以優(yōu)中取優(yōu),即使都完成了天空變成夜晚的操作,但是一個(gè)編輯后還有星星在空中閃爍,更符合夜晚的氛圍,VLM也能將它認(rèn)為是更好的結(jié)果留下。

圖片

VIE-Score測(cè)評(píng)顯示采用inference time scaling策略帶來了極大的效果提升

作者測(cè)試了采用inference-time scaling策略與直接隨機(jī)生成的效果,使用基于GPT4o的VIE-score進(jìn)行測(cè)評(píng),更符合人類偏好??梢钥吹讲捎迷摬呗院?,VIE-score大幅提升,甚至媲美SeedEdit(3月份版本)。

圖片

除了定量測(cè)評(píng)外,ICEdit與其他模型定性對(duì)比也展示了其更佳的編輯效果,無論是指令遵循、背景保持還是人物ID保持上。

圖片

此外,由于作者提出的方法是通過外接MoE-LoRA模塊實(shí)現(xiàn),并未改變DiT模型原有的生成能力,因此具有很強(qiáng)的泛化性并且能夠借助DiT自身能力產(chǎn)生更加和諧自然的編輯效果,如自動(dòng)添加陰影、反光、字體風(fēng)格等等。

圖片

借助DiT自身生成能力能產(chǎn)生更加和諧的編輯效果

此外,該框架也可以看作是一種新的image-to-image框架,經(jīng)過特殊數(shù)據(jù)訓(xùn)練還可用于一些low level任務(wù)。作者嘗試了未經(jīng)額外訓(xùn)練模型就可以泛化到一些特殊任務(wù)上,如圖像光照改變、水印去除、修復(fù)等等。

圖片

該框架可以看作是一個(gè)通用的image-to-image框架,完成多種下游任務(wù)

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-06-27 12:45:30

2024-05-21 12:23:17

2025-05-12 08:50:00

2024-05-14 11:29:15

2025-04-07 00:00:00

OpenAIGPT-4o圖像

2023-01-02 13:12:07

模型圖像

2024-06-07 08:25:16

2024-09-06 13:00:29

2024-06-05 08:29:35

2024-05-17 09:35:55

GPT-4o模型OpenAI

2024-11-22 12:39:56

2019-04-03 15:00:47

Python圖像編輯工具

2025-03-31 08:50:00

AI生成模型

2025-05-13 09:12:18

2023-10-08 09:00:00

LLMGitHub人工智能

2024-05-15 17:34:15

2024-06-05 13:09:26

2025-01-17 10:30:00

2025-04-03 09:34:36

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)