自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="huc1t"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

一個(gè)LoRA實(shí)現(xiàn)GPT-4o級(jí)圖像編輯！浙大哈佛新模型沖上Hugging Face榜二

作者：新智元 2025-05-07 13:51:49

人工智能新聞

隨著Gemini、GPT-4o等商業(yè)大模型把基于文本的圖像編輯這一任務(wù)再次推向高峰，獲取更高質(zhì)量的編輯數(shù)據(jù)用于訓(xùn)練、以及訓(xùn)練更大參數(shù)量的模型似乎成了提高圖像編輯性能的唯一出路。

基于文本指令的圖像編輯任務(wù)一直都是圖像生成、編輯領(lǐng)域的一大熱點(diǎn)，從Prompt2prompt到InstructPix2Pix，從EmuEdit再到最新的GPT4o，都在不斷的拔高AI圖像編輯的水平。

總的來說，這些模型可以歸為兩大類：一種是免訓(xùn)練（training-free）圖像編輯，一種是基于訓(xùn)練或微調(diào)的圖像編輯。免訓(xùn)練圖像編輯多通過對(duì)一個(gè)預(yù)訓(xùn)練文生圖diffusion大模型進(jìn)行提示詞替換、操縱注意力圖、圖像反演等操作實(shí)現(xiàn)，盡管省去了訓(xùn)練的耗費(fèi)，但其操作過程往往較為復(fù)雜且編輯效果不穩(wěn)定、編輯任務(wù)種類單一。

而與之對(duì)應(yīng)的基于訓(xùn)練的方法，則需要通過大量的圖像編輯數(shù)據(jù)來訓(xùn)練，所需數(shù)據(jù)量從幾十萬(wàn)（InstructPix2Pix 300k）到上億不等（Step1X 20M），同時(shí)對(duì)diffusion模型的全量微調(diào)也要消耗大量資源！

之所以需要對(duì)文生圖擴(kuò)散模型進(jìn)行大量數(shù)據(jù)的訓(xùn)練，其主要原因在于預(yù)訓(xùn)練的文生圖模型只能理解生成式的圖像描述，而對(duì)于編輯指令，如「讓這個(gè)女人戴上墨鏡」、「讓這張圖變成吉卜力風(fēng)格」這類話語(yǔ)無法理解，因此需要大量的編輯式指令和圖像對(duì)的微調(diào)、訓(xùn)練。

最近，浙大和哈佛團(tuán)隊(duì)提出了一種新的圖像編輯方法ICEdit，僅需要以往模型0.1%的訓(xùn)練數(shù)據(jù)（50k）以及1%的訓(xùn)練參數(shù)量（200M），就能實(shí)現(xiàn)多種類型高質(zhì)量圖像編輯結(jié)果。

研究人員認(rèn)為讓圖像編輯「降本增效」的核心要素就是充分利用文生圖模型自身的理解、生成能力，讓其理解編輯指令并直接用于圖像編輯。

論文地址：https://arxiv.org/pdf/2504.20690

項(xiàng)目主頁(yè)：https://river-zhang.github.io/ICEdit-gh-pages/

代碼倉(cāng)庫(kù)：https://github.com/River-Zhang/ICEdit

Hugging Face演示：https://huggingface.co/spaces/RiverZ/ICEdit

ICEdit使用數(shù)據(jù)量以及編輯性能與其他SOTA模型對(duì)比；ICEdit僅用50k數(shù)據(jù)訓(xùn)練就達(dá)到了和10M訓(xùn)練的EmuEdit類似的性能。

ICEdit在hugging face上爆火，登上趨勢(shì)榜前五，引Twitter一眾大V轉(zhuǎn)發(fā)。

隨著Diffusion Transformer（DiT）文生圖模型（如SD3，F(xiàn)LUX.1 dev等）在可擴(kuò)展性和長(zhǎng)文本語(yǔ)義理解上展現(xiàn)出的極強(qiáng)性能以及生成結(jié)果的極高質(zhì)量，越來越多的工作選擇DiT模型作為基座來完成各種圖像生成任務(wù)，這篇論文也同樣基于DiT多模態(tài)大模型來探索其圖像編輯能力。

研究人員發(fā)現(xiàn)，當(dāng)使用一種上下文提示詞讓DiT模型來生成類似雙聯(lián)圖形式的結(jié)果時(shí)，如「一張雙聯(lián)畫，包含兩張并排的同一個(gè)男人的圖像。左邊是這個(gè)男人站立的一張照片，右邊是他抱著籃球的照片」，生成的左圖和右圖會(huì)保持極強(qiáng)的主體ID，這一特性也被很多工作用來制造Subject-driven generation任務(wù)的數(shù)據(jù)集，如OminiControl，UNO等。

在上下文提示詞中融入編輯指令后，模型正確理解編輯指令并生成對(duì)應(yīng)結(jié)果。

而再進(jìn)一步，假如有一個(gè)編輯指令是「讓這個(gè)男人抱著籃球」，直接輸入給模型他并不能理解如何生成，但是融入到這種上下文提示詞中，變成「一張雙聯(lián)畫，包含兩張并排的同一個(gè)男人的圖像。左邊是這個(gè)男人站立的一張照片，右邊是同一個(gè)男人，但 {讓這個(gè)男人抱著籃球}」時(shí)，研究人員發(fā)現(xiàn)模型就能夠理解指令并生成相同面貌抱著籃球的結(jié)果了。同時(shí)可視化一下「{讓這個(gè)男人抱著籃球}」的注意力圖會(huì)發(fā)現(xiàn)，

針對(duì)這個(gè)語(yǔ)句，模型確實(shí)注意到需要發(fā)生編輯的區(qū)域，說明它確實(shí)理解了編輯指令。

此外，將該方法與GPT4o等一眾商業(yè)大模型做對(duì)比，盡管在語(yǔ)義理解、編輯多樣性上相比還有差距，但該模型展現(xiàn)出了極強(qiáng)的人物ID保持、非編輯區(qū)域保持以及指令遵循能力，甚至一定程度上超越GPT4o、Gemini等商業(yè)大模型。

該模型與商用模型相比更開源、低成本、速度也更快（8~10s即可完成一張圖片的編輯），不可謂不強(qiáng)大。

ICEdit圖像編輯模型與一眾商業(yè)大模型的編輯結(jié)果對(duì)比

兩種免訓(xùn)練的基于上下文理解的圖像編輯框架

如上文提到，雖然模型理解了編輯指令，但它還是在進(jìn)行文生圖，并不知道輸入圖像長(zhǎng)什么樣子，還是無法完成圖像編輯，這該如何解決呢？

基于此，作者嘗試了兩種免訓(xùn)練的架構(gòu)來讓DiT模型能夠既接收參考圖，又根據(jù)上下文編輯指令完成圖像編輯：

兩種免訓(xùn)練指令編輯框架

第一種框架是基于文生圖DiT模型，該框架流程略微繁瑣一些，簡(jiǎn)單來說就是將待編輯圖像先進(jìn)行圖像反演（inversion），并保留反演過程中模型內(nèi)部的圖像特征，用于后續(xù)注入（與RF-Solver-Edit類似）。

而完成圖像反演后獲得的噪聲圖像，會(huì)與一個(gè)相同尺寸的隨機(jī)初始化噪聲拼接，形式一個(gè)噪聲雙聯(lián)圖，用于圖像去噪。

去噪的過程中接收的提示詞便是融入了編輯指令的上下文提示詞，如「一張雙聯(lián)畫，包含兩張并排的同一個(gè)男人的圖像……同一個(gè)男人，但 {讓這個(gè)男人抱著籃球}」，同時(shí)在去噪的過程中不斷向雙聯(lián)圖左側(cè)的噪聲圖注入原始圖像反演的特征，右側(cè)噪聲則不做操作，最后生成的結(jié)果圖的左側(cè)將進(jìn)行原始圖像的重建，而右側(cè)則會(huì)生成根據(jù)上下文提示詞發(fā)生編輯后的結(jié)果，即這個(gè)男人抱著籃球。

另一個(gè)免訓(xùn)練框架則是基于Inpainting DiT（圖像補(bǔ)全，如FLUX.1 Fill），該框架則十分簡(jiǎn)潔，只需要將待編輯圖像（source image）放置在雙聯(lián)圖左側(cè)，右側(cè)則全部設(shè)置為inpainting區(qū)域即可，輸入的提示詞依然是融入了編輯指令的上下文提示詞，可以看到輸出了編輯后的圖像。

總的來說兩種框架的目的都是為了讓模型能接收參考圖像同時(shí)基于上下文指令進(jìn)行編輯，雖然其展現(xiàn)出了出色的編輯效果，但是從圖中可以看到抱著籃球的男人ID還是發(fā)生了一些變化，拿罐頭的女人也發(fā)生了姿勢(shì)改變，成片率依然不高。

混合專家LoRA微調(diào)與test-time scaling大幅提升性能

雖然免訓(xùn)練的方法性能依舊有限且成片率不高，但它可以通過后續(xù)的微調(diào)來提升性能。

作者基于inpainting框架的簡(jiǎn)潔性，在其基礎(chǔ)上使用了來自互聯(lián)網(wǎng)上的公共編輯數(shù)據(jù)集（MagicBrush 9k+OmniEdit 40k）進(jìn)行了LoRA微調(diào)，微調(diào)策略很簡(jiǎn)單，只需要將數(shù)據(jù)集中的編輯指令改為統(tǒng)一的上下文形式指令，即「一張雙聯(lián)畫，包含兩張并排的同一個(gè)場(chǎng)景的圖像，右邊的場(chǎng)景與左邊相同，但 + { 編輯指令 }」。

作者發(fā)現(xiàn)微調(diào)過后模型編輯的成功率大大提高，并且能泛化到許多數(shù)據(jù)集之外的圖像類型編輯上。

然而作者發(fā)現(xiàn)僅僅使用普通的lora在不同的編輯任務(wù)上成功率依然不夠高，并且有些任務(wù)如Remove、style等編輯效果較差。

作者認(rèn)為這是由于不同的編輯任務(wù)需要不同的特征處理模式，而僅靠一個(gè)LoRA難以學(xué)習(xí)所有編輯類型的處理方法，因此采用多LoRA專家的混合訓(xùn)練或許是提高編輯效果的關(guān)鍵。

于是作者借鑒了LLM領(lǐng)域發(fā)揮重要作用的MoE（混合專家模型）方法，將其用在DiT多模態(tài)大模型中，并將LoRA設(shè)置為不同的專家進(jìn)行訓(xùn)練，得到了最終的模型。

盡管采用了MoE+LoRA的形式，模型的訓(xùn)練參數(shù)依然遠(yuǎn)遠(yuǎn)少于SOTA模型（0.2B vs 17B）。

表1：模型參數(shù)量和性能對(duì)比

表2：訓(xùn)練數(shù)據(jù)量和性能對(duì)比

表3：使用LoRA微調(diào)后相比training free性能顯著提升，采用MoE架構(gòu)后性能繼續(xù)上升

訓(xùn)練端結(jié)束，那么推理時(shí)模型的性能還有提升的空間嗎？作者發(fā)現(xiàn)不同的隨機(jī)初始化噪聲會(huì)產(chǎn)生不同的編輯結(jié)果，而這些結(jié)果有的好有的壞，如何讓模型自動(dòng)且快速的生成最佳的結(jié)果交給用戶呢？

為了解決「不同初始噪聲編輯效果不一」的問題，作者提出適用于圖像編輯任務(wù)的早篩推理時(shí)拓展策略（Early filter inference time scaling）。

簡(jiǎn)單來說，當(dāng)前最常用的FLUX、SD3等DiT架構(gòu)文生圖模型多采用流匹配等技術(shù)訓(xùn)練，這使得其能夠通過極少的推理步數(shù)就能快速生成高質(zhì)量結(jié)果（走直線），許多工作也探索了One-step圖像生成的DiT模型。因此，作者想到利用最初的幾個(gè)step來判斷當(dāng)前初始噪聲生成的效果是否滿足編輯要求，如果不滿足則直接略過考慮下一個(gè)候選。

Early filter inference time scaling

案例要求將天空變成黑夜的樣子，有的噪聲候選在前4步時(shí)是天亮的樣子，進(jìn)行完整的50步推理依然是天亮的樣子，不滿足編輯的要求，因此可以用VLM作為判官在前幾步就把這個(gè)不符合的候選去除，節(jié)省推理的步數(shù)耗費(fèi)。

此外，VLM還可以優(yōu)中取優(yōu)，即使都完成了天空變成夜晚的操作，但是一個(gè)編輯后還有星星在空中閃爍，更符合夜晚的氛圍，VLM也能將它認(rèn)為是更好的結(jié)果留下。

VIE-Score測(cè)評(píng)顯示采用inference time scaling策略帶來了極大的效果提升

作者測(cè)試了采用inference-time scaling策略與直接隨機(jī)生成的效果，使用基于GPT4o的VIE-score進(jìn)行測(cè)評(píng)，更符合人類偏好?？梢钥吹讲捎迷摬呗院?，VIE-score大幅提升，甚至媲美SeedEdit（3月份版本）。

除了定量測(cè)評(píng)外，ICEdit與其他模型定性對(duì)比也展示了其更佳的編輯效果，無論是指令遵循、背景保持還是人物ID保持上。

此外，由于作者提出的方法是通過外接MoE-LoRA模塊實(shí)現(xiàn)，并未改變DiT模型原有的生成能力，因此具有很強(qiáng)的泛化性并且能夠借助DiT自身能力產(chǎn)生更加和諧自然的編輯效果，如自動(dòng)添加陰影、反光、字體風(fēng)格等等。

借助DiT自身生成能力能產(chǎn)生更加和諧的編輯效果

此外，該框架也可以看作是一種新的image-to-image框架，經(jīng)過特殊數(shù)據(jù)訓(xùn)練還可用于一些low level任務(wù)。作者嘗試了未經(jīng)額外訓(xùn)練模型就可以泛化到一些特殊任務(wù)上，如圖像光照改變、水印去除、修復(fù)等等。

該框架可以看作是一個(gè)通用的image-to-image框架，完成多種下游任務(wù)

責(zé)任編輯：張燕妮來源：新智元

模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)