?無需昂貴標(biāo)注!大幅提升SDXL和SD3-Medium效果!文生圖偏好優(yōu)化新寵來了
文章鏈接:https://arxiv.org/pdf/2410.18013
亮點(diǎn)直擊
- 合成標(biāo)注偏好數(shù)據(jù)集(Syn-Pic):從不同的T2I模型生成圖像,并通過多個預(yù)訓(xùn)練的獎勵模型對其進(jìn)行標(biāo)注,這些模型可以估計(jì)人類偏好。因此,數(shù)據(jù)收集過程中無需人工標(biāo)注,使得數(shù)據(jù)收集成本更低且易于擴(kuò)展。通過聚合多個獎勵模型的評分,減輕了獎勵過度優(yōu)化的問題。與傳統(tǒng)的成對比較不同,為每個提示生成的圖像構(gòu)建一個排名。雖然聚合多個人工標(biāo)注者的偏好并構(gòu)建排名是可行的,但這相比本文的低成本方法會顯著增加標(biāo)注成本。
- 基于排名的偏好優(yōu)化(RankDPO):為利用排名中更豐富的信號,引入了一種排名增強(qiáng)的DPO目標(biāo)函數(shù)RankDPO,借鑒了“學(xué)習(xí)排序”領(lǐng)域的廣泛文獻(xiàn)。它使用折扣累計(jì)增益(DCG)對偏好損失進(jìn)行加權(quán),使其與首選排名對齊。
- 使用與Pick-a-Picv2相同的提示,SDXL和SD3-Medium模型的表現(xiàn)顯著提升。展示了在多個基準(zhǔn)數(shù)據(jù)集上的改進(jìn)結(jié)果,包括GenEval(表1)、T2I-Compbench(表2)和DPG-Bench(表3),以及用戶研究中的視覺對比(圖1中的示例和圖3)。
- 與現(xiàn)有的偏好優(yōu)化方法相比,取得了最新的效果,例如表3。更重要的是,僅使用了Pick-a-Picv2所需圖像數(shù)量的三分之一,即表8。
- 盡管SD3-Medium(20億參數(shù))已經(jīng)通過3M個人偏好數(shù)據(jù)的DPO進(jìn)行優(yōu)化,但使用包含24萬圖像的Syn-Pic數(shù)據(jù)集仍能進(jìn)一步實(shí)現(xiàn)顯著提升,例如表1、2、3。
總結(jié)速覽
解決的問題
傳統(tǒng)的直接偏好優(yōu)化(DPO)方法依賴大量人工標(biāo)注的數(shù)據(jù)集來對文本生成圖像(T2I)模型進(jìn)行對齊,但這種方法成本高昂,且數(shù)據(jù)容易過時,難以適應(yīng)T2I模型快速提升的需求。
提出的方案
本研究提出一種完全合成的數(shù)據(jù)集收集方法,用于DPO訓(xùn)練。通過預(yù)訓(xùn)練的獎勵函數(shù)生成成對圖像的偏好數(shù)據(jù),替代人工標(biāo)注,極大地提升數(shù)據(jù)集的收集效率。同時,引入RankDPO方法,通過排名反饋增強(qiáng)DPO訓(xùn)練,提升模型的偏好學(xué)習(xí)效果。
應(yīng)用的技術(shù)
采用預(yù)訓(xùn)練的獎勵函數(shù)生成成對圖像的偏好數(shù)據(jù),并在SDXL和SD3-Medium模型上應(yīng)用RankDPO技術(shù)。數(shù)據(jù)集“Syn-Pic”用于支持該方法,避免人工參與標(biāo)注并提供更高效的偏好數(shù)據(jù)生成方式。
達(dá)到的效果
通過使用“Syn-Pic”合成偏好數(shù)據(jù)集和RankDPO方法,顯著提升了模型的文本跟隨能力(如T2I-Compbench、GenEval和DPG-Bench基準(zhǔn)測試)和視覺質(zhì)量(通過用戶研究驗(yàn)證),為開發(fā)更優(yōu)質(zhì)的偏好數(shù)據(jù)集、提升文本生成圖像模型的性能和安全性提供了一個實(shí)用且可擴(kuò)展的解決方案。
方法
本節(jié)首先概述用于文本生成圖像的擴(kuò)散模型及其直接偏好優(yōu)化方法。接下來,討論策劃和標(biāo)注可擴(kuò)展的偏好優(yōu)化數(shù)據(jù)集的過程。最后,描述一種基于排名的偏好優(yōu)化方法RankDPO,以利用該排序偏好數(shù)據(jù)集。下圖2中對這兩個組成部分進(jìn)行了說明。算法3提供了在Syn-Pic上訓(xùn)練RankDPO的偽代碼。
用于擴(kuò)散模型的DPO
Bradley-Terry(BT)模型通過以下公式定義成對偏好:
合成標(biāo)注偏好數(shù)據(jù)集 (Syn-Pic)
討論
本文的數(shù)據(jù)收集方法具有以下幾個優(yōu)點(diǎn):
- 成本效率:可以生成任意規(guī)模的偏好數(shù)據(jù)集,因?yàn)闃?biāo)注環(huán)節(jié)中沒有人為參與,圖像生成和標(biāo)注均使用現(xiàn)成的模型,從而降低數(shù)據(jù)集策劃成本。例如,收集Pick-a-Picv2數(shù)據(jù)集大約需要50000,可以以約200的成本收集一個類似規(guī)模的數(shù)據(jù)集。
- 可擴(kuò)展性:隨著數(shù)據(jù)集收集成本的降低,可以針對新的文本生成圖像模型進(jìn)行迭代,從而消除了由于新模型出現(xiàn)而導(dǎo)致舊偏好數(shù)據(jù)集過時的問題。
- 基于排名的偏好優(yōu)化:由于每個提示運(yùn)行多個T2I模型,因此收集到的是一個排名的偏好列表,而不僅僅是早期數(shù)據(jù)集中成對的數(shù)據(jù)。這能夠在偏好優(yōu)化中探索排名目標(biāo)。
基于排名的偏好優(yōu)化 (RankDPO)
該損失函數(shù)不僅鼓勵模型滿足成對的偏好,還要尊重為相同提示生成的圖像的整體排名。通過使用從排名中獲得的增益和折扣來加權(quán)傳統(tǒng)的 DPO 目標(biāo),確保模型根據(jù)排名優(yōu)先生成質(zhì)量更高的圖像,從而在美學(xué)和提示對齊方面實(shí)現(xiàn)更一致的改進(jìn)。
實(shí)驗(yàn)
實(shí)施細(xì)節(jié)實(shí)驗(yàn)中使用開源的 SDXL和 SD3-Medium 模型。從 Pick-a-Picv2 收集了 58K 個提示,并使用四個模型,即 SDXL、SD3-Medium、Pixart-Σ 和 Stable Cascade,準(zhǔn)備了 Syn-Pic 數(shù)據(jù)集。在 8 張 A100 GPU 上訓(xùn)練 RankDPO,持續(xù) 16 小時,批次大小為 1024,訓(xùn)練 400 步。
比較結(jié)果
短提示在前面表 1 中,報(bào)告了 GenEval上的結(jié)果。RankDPO 在幾乎所有類別上都持續(xù)改善了性能,使得 SDXL 的平均性能從 0.55 提高到 0.61,SD3-Medium 的平均性能從 0.70 提高到 0.74。特別是觀察到在“兩個物體”、“計(jì)數(shù)”和“顏色歸屬”等方面有顯著提升,增幅近 10%。在前面表 2 中的 T2I-Compbench中,也觀察到了類似的趨勢,其中 SDXL 在“顏色”和“紋理”上提升超過 10%,并在其他類別中也有改進(jìn)。
長提示在前面表 3 中,進(jìn)一步在 DPG-Bench上評估了模型的視覺質(zhì)量和提示對齊性,該基準(zhǔn)包含長且詳細(xì)的提示。為了測量提示對齊性,使用了原始 DSG 指標(biāo)和 VQAScore,而對于視覺質(zhì)量,使用了 Q-Align 模型。
Diffusion-DPO(標(biāo)記為 DPO-SDXL)在 Pick-a-Picv2 上訓(xùn)練,能夠在提示對齊性方面提供有意義的改進(jìn),而對 SDXL 進(jìn)行 MaPO和 SPO的微調(diào)(標(biāo)記為 MaPO-SDXL 和 SPO-SDXL)則提高了視覺質(zhì)量。然而,盡管 RankDPO 僅在合成偏好上進(jìn)行訓(xùn)練,但所有指標(biāo)都有顯著提升(例如,SDXL 的 DSG 得分從 74.51 提高到 79.26,Q-Align 得分從 0.72 提高到 0.81),并達(dá)到了最新的提示對齊指標(biāo)。對于 SD3-Medium,在使用RankDPO 進(jìn)行微調(diào)后,繼續(xù)看到模型性能的提升。
用戶研究
為了進(jìn)一步驗(yàn)證本文方法的有效性,在 DPG-Bench 上對 450 個提示進(jìn)行了用戶研究。要求用戶根據(jù)他們的整體偏好(即結(jié)合文本與圖像的對齊性和視覺質(zhì)量)選擇更好的圖像。前面圖 3 顯示,RankDPO 的勝率優(yōu)于 DPO-SDXL和 SDXL,這表明其在提高生成圖像整體質(zhì)量方面的有效性。
下圖 4 中展示了來自 DPG-Bench的提示的定性示例。與基礎(chǔ) SDXL 和其他偏好調(diào)整模型相比,RankDPO 在文本渲染方面有顯著改進(jìn),能夠捕捉到所有提示中描述的對象,而其他模型則遺漏了這些對象,并且在圖像中對對象之間復(fù)雜關(guān)系的建模更佳。
計(jì)算成本討論
需要 10 個 A100 GPU 天來生成圖像并標(biāo)注偏好,這是一次性成本。在生成數(shù)據(jù)上運(yùn)行 RankDPO 進(jìn)行 400 步訓(xùn)練,SDXL 在 10242 像素下大約需要 6 個 GPU 天。相比之下,現(xiàn)有的獎勵優(yōu)化方法在較小的 SD1.5 模型(5122 像素)上需要 64-95 個 A100 GPU 天。類似地,與 Diffusion-DPO相比,RankDPO 在三分之一的數(shù)據(jù)上訓(xùn)練,同時避免了手動整理的偏好。還有一些通過使用文本編碼器(如 T5/LLaMA 模型)來增強(qiáng)文本到圖像模型的方法,這些方法需要 1000 萬到 3400 萬個密集標(biāo)注的圖像,并訓(xùn)練 50-120 個 A100 GPU 天。
消融分析
數(shù)據(jù)和標(biāo)注函數(shù)的影響由于生成偏好是 RankDPO 的關(guān)鍵方面,在下表 4 中評估了不同的標(biāo)注選擇。嘗試隨機(jī)標(biāo)注,即隨機(jī)選擇偏好并應(yīng)用 DPO。這僅能提供有限的性能提升(從 74.65 提升至 75.66 的 DSG 得分)。還展示了來自單一獎勵模型(HPSv2.1)的成對偏好的結(jié)果,以及從 5 個模型中平均偏好的結(jié)果。雖然 HPSv2.1 對提示對齊和視覺質(zhì)量都提供了良好的改進(jìn),但跨多個模型的預(yù)測集成進(jìn)一步提高了結(jié)果。這些結(jié)果優(yōu)于應(yīng)用于 Pick-a-Picv2 的 DPO,突顯了在構(gòu)建偏好數(shù)據(jù)集時圖像質(zhì)量的重要性。最后,調(diào)查了用于構(gòu)建 Syn-Pic 的不同模型的影響。這是通過僅更改種子,構(gòu)建與 SDXL 圖像相似的數(shù)據(jù)集來完成的。雖然在提示對齊方面幾乎得到了相同的改進(jìn),但在視覺質(zhì)量上只看到了小幅提升。這表明,合成偏好調(diào)優(yōu)可以應(yīng)用于任何模型的輸出,但使用不同模型生成的圖像可以進(jìn)一步改善結(jié)果。
學(xué)習(xí)目標(biāo)分析偏好優(yōu)化的一個關(guān)鍵方面是學(xué)習(xí)目標(biāo)的選擇,在上表 4 中進(jìn)行各種實(shí)驗(yàn)進(jìn)行比較。除了常規(guī)的 DPO 公式外,一些研究表明,在經(jīng)過精心挑選的高質(zhì)量數(shù)據(jù)上進(jìn)行監(jiān)督微調(diào)的好處,也將其納入比較?;€包括以下幾種方法:
- 監(jiān)督微調(diào):從每對比較中選擇獲勝的圖像,并在此子集上對 SDXL 進(jìn)行微調(diào)。
- 加權(quán)微調(diào):在所有樣本上對 SDXL 進(jìn)行微調(diào),但根據(jù) HPSv2.1 分?jǐn)?shù)為每個樣本分配權(quán)重,類似于 Lee et al.。
- DPO + 增益函數(shù)加權(quán):通過使用增益函數(shù)對樣本加權(quán),可以改善 DPO 目標(biāo)。
可以看到,RankDPO 實(shí)現(xiàn)了最佳結(jié)果,突顯了基于成對偏好的排名標(biāo)準(zhǔn)的整合對增強(qiáng)偏好優(yōu)化的好處。
結(jié)論與討論
本文提出了一種強(qiáng)大且具有成本效益的文本到圖像模型偏好優(yōu)化方法。具體而言,展示了如何通過合成生成偏好優(yōu)化數(shù)據(jù)集來收集更優(yōu)的信號(例如,排名與成對偏好、跨模型集成偏好)。還提出了一種簡單的方法來利用更強(qiáng)的信號,從而在多個基準(zhǔn)測試中實(shí)現(xiàn)了針對提示跟隨和視覺質(zhì)量的最新結(jié)果,無論是在擴(kuò)散模型還是修正流模型中。希望本文的工作為未來在文本到圖像模型上擴(kuò)展有效的后期訓(xùn)練解決方案鋪平道路。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
