自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!

發(fā)布于 2025-4-14 09:50
瀏覽
0收藏

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2504.07405 
項目鏈接:https://flexip-tech.github.io/flexip

亮點直擊

  • 雙適配器解耦設(shè)計: 首次將身份保持(Preservation Adapter)和個性化編輯(Personalization Adapter)顯式分離,避免特征競爭,實現(xiàn)更精準的控制,優(yōu)于現(xiàn)有SOTA。
  • 動態(tài)權(quán)重門控機制: 通過連續(xù)可調(diào)參數(shù)動態(tài)平衡身份保持與編輯強度,支持從細微調(diào)整到大幅變形的靈活控制,突破傳統(tǒng)“非此即彼”的限制。
  • 模態(tài)感知訓(xùn)練策略: 根據(jù)數(shù)據(jù)特性(靜態(tài)圖像/視頻幀)自適應(yīng)調(diào)整適配器權(quán)重,圖像數(shù)據(jù)強化身份鎖定,視頻數(shù)據(jù)優(yōu)化時序變形,提升生成魯棒性。

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

上圖:FlexIP 展示了在個性化圖像生成中的多樣性與精確性。僅憑一張參考圖像(左列),它不僅生動還原了身份特征,還能靈活響應(yīng)多樣的文本提示,生成既連貫又高度多樣化的編輯結(jié)果。下圖:FlexIP 采用的動態(tài)權(quán)重門控機制可在“強身份保持”與“個性化多樣性”之間平滑切換,顯著優(yōu)于 IP-Adapter(后者在身份表現(xiàn)上容易突變,控制力也更僵硬)。這一點體現(xiàn)了 FlexIP 更出色的靈活性與用戶友好的可控性。

(動物域)SDXL上的個性化設(shè)置

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

人物個性化對比

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

(物體域)SDXL上的個性化對比

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

與Inpainting模型結(jié)合(SDXL Inpainting)展示

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

總結(jié)速覽

解決的問題

  • 身份保持與編輯靈活性的固有矛盾:現(xiàn)有方法在生成模型中難以同時實現(xiàn)高保真身份保持和多樣化個性化編輯,通常需要在兩者之間做出權(quán)衡。
  • 跨模態(tài)對齊不足:傳統(tǒng)零樣本方法依賴視覺-語言對齊模塊(如Q-former),導(dǎo)致圖像生成任務(wù)中視覺與文本信息未能有效協(xié)同,影響身份保持和編輯效果。
  • 控制粒度不足:現(xiàn)有方法通過單一參數(shù)調(diào)整身份保持強度時,往往產(chǎn)生突變效果,缺乏連續(xù)、精細的控制能力。

提出的方案

  • 雙適配器架構(gòu)(Dual-Adapter)
  • Preservation Adapter(保持適配器):專注于身份特征(高層語義和低層空間細節(jié)),通過跨注意力層鎖定關(guān)鍵身份信息。
  • Personalization Adapter(個性化適配器):基于文本指令和高層語義實現(xiàn)多樣化編輯,避免特征競爭。
  • 動態(tài)權(quán)重門控機制:在推理階段通過動態(tài)調(diào)整雙適配器的權(quán)重比例,實現(xiàn)身份保持與編輯靈活性的連續(xù)參數(shù)化控制。
  • 模態(tài)感知訓(xùn)練策略
  • 靜態(tài)圖像數(shù)據(jù):偏向保持適配器,強制身份一致性。
  • 視頻幀數(shù)據(jù):偏向個性化適配器,利用時序變形能力實現(xiàn)連貫編輯。

應(yīng)用的技術(shù)

  • 解耦設(shè)計:通過“低耦合、高內(nèi)聚”原則分離身份保持與編輯功能,避免傳統(tǒng)單一路徑的特征沖突。
  • 跨注意力機制:保持適配器通過跨注意力捕獲多粒度視覺特征(如人臉細節(jié)),增強身份魯棒性。
  • 動態(tài)插值:權(quán)重門控機制支持用戶實時調(diào)整適配器貢獻,形成連續(xù)的“控制曲面”。
  • 多模態(tài)數(shù)據(jù)訓(xùn)練:結(jié)合圖像和視頻數(shù)據(jù),分別優(yōu)化適配器的身份鎖定與變形能力。

達到的效果

  • 突破性能限制:在身份保持準確性(如人臉、物體細節(jié))和編輯多樣性(如風格、姿態(tài)變換)上均超越現(xiàn)有方法。
  • 靈活可控性:用戶可通過參數(shù)連續(xù)調(diào)節(jié)生成效果,從細微修飾到大幅變形均保持身份一致性。
  • 廣泛適用性:支持藝術(shù)創(chuàng)作、廣告設(shè)計等場景,兼顧高保真與創(chuàng)意自由度。
  • 實驗驗證:定量與定性實驗表明,F(xiàn)lexIP在身份相似度(如CLIP-I得分)和編輯質(zhì)量(如用戶偏好率)上達到SOTA水平。

關(guān)鍵創(chuàng)新點

  • 顯式解耦:首次將身份保持與編輯分解為獨立可控維度。
  • 動態(tài)門控:將傳統(tǒng)二元權(quán)衡轉(zhuǎn)化為連續(xù)控制,實現(xiàn)“參數(shù)化編輯”。
  • 模態(tài)感知訓(xùn)練:根據(jù)數(shù)據(jù)特性(圖像/視頻)自適應(yīng)調(diào)整適配器權(quán)重,優(yōu)化生成效果。

方法

本節(jié)首先提供文本到圖像擴散模型的基礎(chǔ)概述,包括其核心機制及其與本工作的相關(guān)性。在此基礎(chǔ)上,全面闡述所提出的 FlexIP 框架。首先闡明其開發(fā)動機的關(guān)鍵觀察與挑戰(zhàn),隨后系統(tǒng)地分解其架構(gòu)與工作流程,詳細說明其利用預(yù)訓(xùn)練文本到圖像擴散模型實現(xiàn)主體保持與個性化的創(chuàng)新方法。

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

在圖像保持和文本保真兩個指標上與其他方法的比較表明,本文的方法在這兩個方面都優(yōu)于以前的方法

保持適配器

確保身份保持的第一步是確定應(yīng)使用哪些查詢和特征來檢索主體特定屬性。即,何種查詢能有效提取富含身份的信息?

可學(xué)習查詢的適應(yīng)性

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

二者的互補性

保持細粒度與全局身份屬性常被視為簡單挑戰(zhàn)??蓪W(xué)習查詢擅長捕捉細粒度變化但缺乏全局一致性,而 CLIP [CLS] 嵌入提供全局身份一致性卻可能忽略細微主體細節(jié)。因此,我們采用“分而治之”策略,整合二者從 DINO 塊嵌入中同時檢索細粒度適應(yīng)性與全局魯棒性(如下圖 3 左下圖所示),確保編輯時身份保持仍穩(wěn)定。

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

通過 DINO 塊嵌入  的交叉注意力獨立重采樣可學(xué)習查詢  和 CLIP [CLS] 嵌入 :

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

其中 ⊕ 表示拼接操作。P 作為身份保持模塊,整合了細粒度局部細節(jié)(通過可學(xué)習查詢)和全局語義(通過 CLIP [CLS] 嵌入)。

個性化適配器

在個性化方面,Stable Diffusion 已經(jīng)通過交叉注意力將 UNet 潛在空間與文本嵌入進行條件化。然而,這種條件化僅提供一般的語義指導(dǎo),缺乏對主體特定視覺身份的顯式關(guān)聯(lián)。因此,僅依賴原始文本嵌入可能導(dǎo)致編輯意圖與主體外觀之間的錯位。


通過引入額外的個性化適配器來解決這一限制,其中文本嵌入顯式關(guān)注 CLIP [CLS] 嵌入。這一額外的重采樣步驟使文本嵌入能夠吸收有意義的視覺線索,將文本修改錨定在一致的視覺上下文中。因此,文本指令更具身份感知能力,從而引導(dǎo)既準確又與主體外觀一致的編輯。

個性化適配器的功能如下:

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

動態(tài)權(quán)重門控

為解決現(xiàn)有方法在保持能力與風格化自由度之間的固有權(quán)衡,提出一種新穎的動態(tài)權(quán)重門控(DWG)機制,用于圖像和視頻數(shù)據(jù)的聯(lián)合訓(xùn)練。實證分析表明:

  • 圖像數(shù)據(jù)能提升保持質(zhì)量,但會導(dǎo)致復(fù)制粘貼偽影并削弱指令遵循性
  • 視頻數(shù)據(jù)可促進時序多樣性,但會弱化保持強度

本文的框架通過動態(tài)調(diào)整兩個專用適配器的貢獻,實現(xiàn)兩種模態(tài)的優(yōu)勢互補:

  • 保持適配器 P經(jīng)圖像數(shù)據(jù)優(yōu)化,用于維持高保真細節(jié)和指令一致性
  • 個性化適配器 S設(shè)計用于從視頻數(shù)據(jù)注入時序多樣性和風格化自由度

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

實驗

訓(xùn)練數(shù)據(jù)集

理想訓(xùn)練需要展示同一主體在不同場景或視角下的圖像對,但此類數(shù)據(jù)通常難以獲取。先前方法依賴簡單增強手段,無法表征真實姿態(tài)和視角變化。沿用前人工作,利用多視角和視頻數(shù)據(jù)集,這些數(shù)據(jù)天然提供同一主體的多幀畫面。


本文的數(shù)據(jù)集包含123萬張變化樣本和1100萬張不變圖像,涵蓋人臉圖像、自然場景、虛擬試穿、人類動作、顯著性和多視角物體。為平衡多樣性與泛化性,我們對視頻數(shù)據(jù)重采樣以保持變化與不變數(shù)據(jù)1:1比例,避免冗余。


此外,先前工作常對視頻幀使用簡單統(tǒng)一的文本提示,限制了模型遵循細致指令的能力。為提升文本條件化和編輯靈活性,使用Qwen2-VL為每幀生成高質(zhì)量獨特描述。該方法增強了文本引導(dǎo)的多樣性和語義相關(guān)性,提高了模型遵循詳細編輯指令的能力。

評估數(shù)據(jù)集與指標

從DreamBench+和MSBench收集評估數(shù)據(jù),包含187個獨特主體。每張圖像使用其對應(yīng)的9組提示進行測試,每組提示生成10次,最終產(chǎn)生16,830張定制化圖像用于全面評估。


本文使用多項指標評估模型。對于身份保持,在應(yīng)用分割去除背景干擾后,采用DINO-I和CLIP-I計算相似度分數(shù)。對于個性化,CLIP-T度量生成圖像與提示在CLIP文本-圖像嵌入空間中的語義對齊度。此外,使用CLIP-IQA和CLIP-Aesthetic評估圖像質(zhì)量。本文還計算各方法在所有指標上的平均排名(mRank)以綜合反映其性能。

對比實驗

定量對比

本實驗從個性化、保持性、圖像質(zhì)量和用戶研究四個維度對比了多種方法。如下表1所示,F(xiàn)lexIP在所有評估指標上均優(yōu)于其他方法,尤其在綜合排名(mRank)、個性化(CLIP-T)、保持性(CLIP-I和DINO-I)和圖像質(zhì)量(CLIP-IQA和Aesthetic)方面表現(xiàn)突出。

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

在個性化方面,F(xiàn)lexIP的CLIP-T得分為0.284,略低于λ-Eclipse方法。但需注意的是,λ-Eclipse是以犧牲主體保持能力為代價實現(xiàn)的這一分數(shù)。在保持性指標上,F(xiàn)lexIP的CLIP-I和DINO-I得分分別達到0.873和0.739,展現(xiàn)了其在保持圖像細節(jié)和語義一致性方面的優(yōu)勢。圖像質(zhì)量評估中,F(xiàn)lexIP的CLIP-IQA和Aesthetic分數(shù)分別為0.598和6.039,表明其生成的圖像具有更優(yōu)的質(zhì)量和美學(xué)價值。


為提供更符合人類感知的個性化評估,本文采用MLM-Filter進行測評。與傳統(tǒng)CLIP-T方法依賴全局對比特征不同,MLM-Filter利用先進的多模態(tài)大語言模型能力捕捉細微物體屬性和語義差異,可實現(xiàn)與人類判斷一致的情境感知評估。下表2顯示,F(xiàn)lexIP在圖像-文本匹配(I-T Match)、物體細節(jié)滿意度(Detail)和語義理解(Semantic)三個互補維度上均表現(xiàn)優(yōu)異,這凸顯了其精準捕捉視覺細節(jié)并整合輔助信息的能力,與人類偏好高度吻合。

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

為驗證方法的實用性,進一步評估了不同方法在實際應(yīng)用中的用戶滿意度,重點關(guān)注靈活性(Flex)和身份保持(ID-Pres)兩個指標。本研究共使用33個樣本進行評估,每次評估中向參與者展示各方法生成的圖像集合,由60名評估者根據(jù)兩個標準進行選擇:最符合文本語義的圖像和最佳保持主體的圖像。如表1所示,F(xiàn)lexIP在這兩項指標上均表現(xiàn)最優(yōu)。

定性對比

為全面評估FlexIP的性能,選取每個主體三張不同圖像,與五種前沿方法進行可視化對比。如下圖4所示,相較于現(xiàn)有方法,F(xiàn)lexIP生成的圖像在保真度、可編輯性和身份一致性方面均有顯著提升。實驗結(jié)果表明,在相同文本指令下,F(xiàn)lexIP能跨參考圖像穩(wěn)定保持主體特征與個性化效果,驗證了模型中顯式權(quán)衡機制的有效性。

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

消融實驗

為驗證動態(tài)權(quán)重門控機制在平衡身份保持與個性化編輯方面的效能,我們開展了系統(tǒng)的消融研究。圖5表明,通過調(diào)節(jié)保持適配器與個性化適配器的權(quán)重比例,本框架能在推理階段實現(xiàn)兩個目標的精細化權(quán)衡。所提出的門控機制在訓(xùn)練階段解耦了兩個適配器的優(yōu)化路徑,從而規(guī)避了聯(lián)合優(yōu)化中隱式權(quán)衡導(dǎo)致的次優(yōu)性能。

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

將模型擴展至零樣本風格遷移任務(wù),重點測試指令跟隨與細節(jié)信息提取能力。如下圖6所示,本方法在該任務(wù)中表現(xiàn)優(yōu)于其他方案,這得益于雙適配器架構(gòu)既能提取細粒度信息,又能平衡細節(jié)保持與指令編輯的關(guān)系。

突破傳統(tǒng)“非此即彼”,真靈魂P(guān)圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!-AI.x社區(qū)

結(jié)論

FlexIP是一種面向圖像合成的靈活主體屬性編輯框架,通過解耦身份保持與個性化編輯這兩個目標,有效克服了現(xiàn)有方法的局限。其雙適配器架構(gòu)利用高層語義概念與低層空間細節(jié)確保身份完整性,動態(tài)權(quán)重門控機制則將二元的保持-編輯權(quán)衡轉(zhuǎn)化為連續(xù)的參數(shù)控制曲面,為主體驅(qū)動圖像生成提供了魯棒而靈活的解決方案。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/NrIrYzvG9UD53ArBHcpoQw??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦