自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解 精華

發(fā)布于 2024-5-15 09:42
瀏覽
0收藏

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

非常令人激動(dòng),騰訊混元文生圖大模型已在 Hugging Face 平臺(tái)及 Github 上發(fā)布,包含模型權(quán)重、推理代碼、模型算法等完整模型。


且不管是企業(yè)還是個(gè)人開(kāi)發(fā)者,全部免費(fèi)可用。


主頁(yè):https://dit.hunyuan.tencent.com/
代碼:https://github.com/Tencent/HunyuanDiT


國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

下面來(lái)詳細(xì)介紹下混元大模型的技術(shù)細(xì)節(jié),期待國(guó)內(nèi)更多大模型能發(fā)布,讓AIGC行業(yè)應(yīng)用全面爆發(fā):


Hunyuan-DiT,這是一種具備細(xì)粒度理解能力的文本到圖像擴(kuò)散transformer,能夠處理中文和英文。為了構(gòu)建Hunyuan-DiT,精心設(shè)計(jì)了transformer結(jié)構(gòu)、文本編碼器和位置編碼。此外,還從頭開(kāi)始建立了完整的數(shù)據(jù)pipeline,以更新和評(píng)估數(shù)據(jù),進(jìn)行迭代的模型優(yōu)化。


為了實(shí)現(xiàn)細(xì)粒度的語(yǔ)言理解,訓(xùn)練了一種多模態(tài)大語(yǔ)言模型,用于細(xì)化圖像的標(biāo)題描述。

最終,Hunyuan-DiT能夠與用戶進(jìn)行多輪多模態(tài)對(duì)話,根據(jù)上下文生成和優(yōu)化圖像。通過(guò)我們綜合的人類評(píng)估協(xié)議,超過(guò)50位專業(yè)評(píng)估員參與評(píng)估,Hunyuan-DiT在中文到圖像生成方面相比其他開(kāi)源模型設(shè)立了新的標(biāo)桿。

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

介紹

基于擴(kuò)散的文本生成圖像模型,如DALL-E、Stable Diffusion和Pixart,已經(jīng)展示了生成前所未有質(zhì)量圖像的能力。然而,它們?nèi)狈χ苯永斫庵形奶崾镜哪芰?,限制了其在中文文本提示下的圖像生成潛力。為了提高中文理解能力,提出了AltDiffusion、PAI-Diffusion和Taiyi,但它們的生成質(zhì)量仍需改進(jìn)。


在本報(bào)告中,介紹了構(gòu)建Hunyuan-DiT的完整流程,該模型可以根據(jù)中文和英文提示生成不同分辨率的高質(zhì)量詳細(xì)圖像。

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

Hunyuan-DiT的貢獻(xiàn):

  • (1) 設(shè)計(jì)了基于擴(kuò)散transformer的新網(wǎng)絡(luò)架構(gòu)。它結(jié)合了兩個(gè)文本編碼器:雙語(yǔ)CLIP和多語(yǔ)言T5編碼器,以提高語(yǔ)言理解能力并增加上下文長(zhǎng)度。
  • (2) 從頭構(gòu)建了一個(gè)數(shù)據(jù)處理pipeline,用于添加數(shù)據(jù)、過(guò)濾數(shù)據(jù)、維護(hù)數(shù)據(jù)、更新數(shù)據(jù)并應(yīng)用數(shù)據(jù)來(lái)優(yōu)化我們的文本到圖像模型。具體來(lái)說(shuō),我們?cè)O(shè)計(jì)了一個(gè)稱為“數(shù)據(jù)護(hù)航”的迭代過(guò)程來(lái)檢查新數(shù)據(jù)的有效性。
  • (3) 使用多模態(tài)大語(yǔ)言模型(MLLM)來(lái)優(yōu)化圖像-文本數(shù)據(jù)對(duì)中的原始標(biāo)題描述。我們的MLLM經(jīng)過(guò)微調(diào)以生成具有世界知識(shí)的結(jié)構(gòu)化標(biāo)題描述。
  • (4) 使Hunyuan-DiT能夠通過(guò)與用戶進(jìn)行多輪對(duì)話來(lái)交互地修改其生成內(nèi)容。
  • (5) 我們?cè)谕评黼A段進(jìn)行后期訓(xùn)練優(yōu)化,以降低Hunyuan-DiT的部署成本。


為了全面評(píng)估Hunyuan-DiT的性能,還制定了一個(gè)包含50多位專業(yè)評(píng)估員的評(píng)估協(xié)議。該協(xié)議仔細(xì)考慮了文本生成圖像模型的不同維度,包括文本-圖像一致性、AI偽影、主體清晰度、美學(xué)等。評(píng)估協(xié)議被納入數(shù)據(jù)護(hù)航中以更新生成模型。


Hunyuan-DiT在開(kāi)源模型中實(shí)現(xiàn)了SOTA性能。在中文生成圖像方面,Hunyuan-DiT在文本-圖像一致性、排除AI偽影、主體清晰度和美學(xué)方面優(yōu)于現(xiàn)有開(kāi)源模型,包括Stable Diffusion 3。在主體清晰度和美學(xué)方面,其表現(xiàn)與頂級(jí)閉源模型如DALL-E 3和MidJourney v6相當(dāng)。


在中文元素理解方面,包括古代漢詩(shī)和中國(guó)菜等類別,Hunyuan-DiT生成的圖像質(zhì)量和語(yǔ)義準(zhǔn)確性較其他比較算法更高。Hunyuan-DiT支持長(zhǎng)文本理解,最多可達(dá)256個(gè)token。Hunyuan-DiT可以使用中文和英文文本提示生成圖像。在本報(bào)告中,除非另有說(shuō)明,所有圖像均使用中文提示生成。

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

方法

基于擴(kuò)散transformer的改進(jìn)生成

Hunyuan-DiT 是一個(gè)在潛空間中運(yùn)行的擴(kuò)散模型,如下圖7所示。按照潛擴(kuò)散模型(Latent Diffusion Model),使用預(yù)訓(xùn)練的變分自編碼器(VAE)將圖像壓縮到低維潛空間,并訓(xùn)練一個(gè)擴(kuò)散模型來(lái)學(xué)習(xí)數(shù)據(jù)分布。擴(kuò)散模型通過(guò)transformer進(jìn)行參數(shù)化。為了編碼文本提示,結(jié)合了預(yù)訓(xùn)練的雙語(yǔ)(中文和英文)CLIP和多語(yǔ)言T5編碼器。下面將詳細(xì)介紹每個(gè)模塊。

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

VAE 使用SDXL中的VAE,該模型在512 × 512圖像上進(jìn)行了微調(diào),基于SD 1.5的VAE。實(shí)驗(yàn)結(jié)果顯示,基于高分辨率SDXL VAE訓(xùn)練的文本到圖像模型在清晰度、過(guò)飽和緩解和失真減少方面優(yōu)于SD 1.5 VAE。由于VAE的潛空間極大地影響生成質(zhì)量,將在未來(lái)探索更好的VAE訓(xùn)練范式。


國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)


文本編碼器 一個(gè)高效的文本編碼器在文本生成圖像過(guò)程中至關(guān)重要,因?yàn)樗鼈冃枰獪?zhǔn)確理解和編碼輸入的文本提示以生成對(duì)應(yīng)的圖像。CLIP和 T5已成為這些編碼器的主流選擇。Matryoshka擴(kuò)散模型、Imagen、MUSE和 Pixart-α僅使用 T5 來(lái)增強(qiáng)對(duì)輸入文本提示的理解。相比之下,eDiff-I和 Swinv2-Imagen融合了 CLIP 和 T5 兩種編碼器,以進(jìn)一步提高其文本理解能力。Hunyuan-DiT 選擇結(jié)合 T5 和 CLIP 進(jìn)行文本編碼,以利用這兩種模型的優(yōu)勢(shì),從而增強(qiáng)文本生成圖像過(guò)程的準(zhǔn)確性和多樣性。


位置編碼和多分辨率生成 在視覺(jué)transformer中,一種常見(jiàn)的做法是應(yīng)用正弦位置編碼來(lái)編碼token的絕對(duì)位置。在Hunyuan-DiT中,采用旋轉(zhuǎn)位置embedding(RoPE),同時(shí)編碼絕對(duì)位置和相對(duì)位置依賴性。使用二維RoPE,將RoPE擴(kuò)展到圖像域。

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

  • 擴(kuò)展位置編碼:擴(kuò)展位置編碼X以一種簡(jiǎn)單的方式給出的位置編碼,即:

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

  • 中心插值位置編碼:使用中心插值位置編碼來(lái)對(duì)齊不同 h 和 w 的位置編碼。假設(shè) h≥w,中心插值位置編碼計(jì)算位置編碼的方式為:

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

盡管擴(kuò)展位置編碼更易于實(shí)現(xiàn),但我們發(fā)現(xiàn)它在多分辨率訓(xùn)練中是次優(yōu)選擇。它無(wú)法對(duì)齊不同分辨率的圖像,也無(wú)法覆蓋 h 和 w 都較大的罕見(jiàn)情況。相反,中心插值位置編碼允許不同分辨率的圖像共享相似的位置編碼空間。使用中心插值位置編碼,模型收斂更快,并能更好地推廣到新分辨率。


提高訓(xùn)練穩(wěn)定性 為了穩(wěn)定訓(xùn)練,提出了三種技術(shù):

  • 在所有注意力模塊中計(jì)算Q、K 和 V 之前添加層歸一化。這種技術(shù)被稱為 QK-Norm,提出于[12]。發(fā)現(xiàn)它對(duì) Hunyuan-DiT 的訓(xùn)練也很有效。
  • 在解碼器塊的跳躍模塊之后添加層歸一化,以避免訓(xùn)練過(guò)程中損失爆炸。
  • 發(fā)現(xiàn)某些操作(例如層歸一化)在 FP16 下容易溢出。特意將它們切換到 FP32以避免數(shù)值錯(cuò)誤。

數(shù)據(jù)pipeline

數(shù)據(jù)處理

訓(xùn)練數(shù)據(jù)準(zhǔn)備pipeline由四部分組成,如圖20所示:

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

  1. 數(shù)據(jù)獲取:數(shù)據(jù)獲取的主要渠道目前包括外部購(gòu)買、開(kāi)放數(shù)據(jù)下載和授權(quán)合作伙伴數(shù)據(jù)。
  2. 數(shù)據(jù)解讀:在獲得原始數(shù)據(jù)后,對(duì)數(shù)據(jù)進(jìn)行打標(biāo)簽以識(shí)別其優(yōu)缺點(diǎn)。目前支持的標(biāo)簽?zāi)芰Π▓D像清晰度、美學(xué)、猥褻內(nèi)容、暴力、色情內(nèi)容、水印存在、圖像分類和圖像描述等十多種。
  3. 數(shù)據(jù)分層:數(shù)據(jù)分層是為大批量圖像服務(wù)于模型訓(xùn)練的不同階段而構(gòu)建的。例如,數(shù)十億的圖文對(duì)被用作基礎(chǔ)(銅級(jí))數(shù)據(jù)來(lái)訓(xùn)練我們的基礎(chǔ)CLIP模型。然后,從這個(gè)大庫(kù)中篩選出相對(duì)高質(zhì)量的圖像集作為銀級(jí)數(shù)據(jù),用于訓(xùn)練生成模型,以提高模型的質(zhì)量和理解能力。最后,通過(guò)機(jī)器篩選和人工標(biāo)注,選擇最高質(zhì)量的數(shù)據(jù)作為金級(jí)數(shù)據(jù),用于優(yōu)化和精細(xì)化生成模型。
  4. 數(shù)據(jù)應(yīng)用:分層數(shù)據(jù)應(yīng)用于多個(gè)領(lǐng)域。專業(yè)數(shù)據(jù)被篩選出來(lái)用于專項(xiàng)優(yōu)化,例如人物或風(fēng)格的專業(yè)化。新處理的數(shù)據(jù)不斷加入基礎(chǔ)生成模型的迭代優(yōu)化中。數(shù)據(jù)也經(jīng)常被檢查以保持正在進(jìn)行的數(shù)據(jù)處理的質(zhì)量。

數(shù)據(jù)類別系統(tǒng)

我們發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)中數(shù)據(jù)類別的覆蓋范圍對(duì)于訓(xùn)練精確的文本生成圖像模型至關(guān)重要。這里我們討論兩個(gè)基本類別:

  1. 主體:主體生成是文本生成圖像模型的基礎(chǔ)能力。訓(xùn)練數(shù)據(jù)涵蓋了大多數(shù)類別,包括人物、風(fēng)景、植物、動(dòng)物、商品、交通工具、游戲等,擁有超過(guò)一萬(wàn)個(gè)子類別。
  2. 風(fēng)格:風(fēng)格的多樣性對(duì)用戶的偏好和粘性至關(guān)重要。目前覆蓋了一百多種風(fēng)格,包括動(dòng)漫、3D、繪畫(huà)、寫(xiě)實(shí)和傳統(tǒng)風(fēng)格。

數(shù)據(jù)評(píng)估

為了評(píng)估引入專業(yè)數(shù)據(jù)或新處理數(shù)據(jù)對(duì)生成模型的影響,設(shè)計(jì)了一個(gè)“數(shù)據(jù)護(hù)航”機(jī)制,如圖21所示,具體包括:

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

  1. 根據(jù)數(shù)據(jù)類別系統(tǒng)將訓(xùn)練數(shù)據(jù)分類,包含主體、風(fēng)格、場(chǎng)景、構(gòu)圖等。然后我們調(diào)整不同類別之間的分布,以滿足模型的需求,并使用類別平衡的數(shù)據(jù)集微調(diào)模型。
  2. 在類別級(jí)別上對(duì)比微調(diào)后的模型和原始模型,以評(píng)估數(shù)據(jù)的優(yōu)缺點(diǎn),并據(jù)此確定數(shù)據(jù)更新的方向。

成功運(yùn)行該機(jī)制需要一個(gè)完整的文本生成圖像模型評(píng)估協(xié)議。我們的模型評(píng)估協(xié)議由兩部分組成:

  1. 評(píng)估集構(gòu)建:通過(guò)結(jié)合壞案例和業(yè)務(wù)需求,根據(jù)我們的數(shù)據(jù)類別構(gòu)建初始評(píng)估集。通過(guò)人工標(biāo)注測(cè)試案例的合理性、邏輯性和全面性,確保評(píng)估集的可用性。
  2. 數(shù)據(jù)護(hù)航中的評(píng)估:在每次數(shù)據(jù)護(hù)航中,從評(píng)估集中隨機(jī)選擇一個(gè)子集,形成一個(gè)包含主體、風(fēng)格、場(chǎng)景和構(gòu)圖的整體評(píng)估子集。計(jì)算所有評(píng)估維度的總體評(píng)分,以輔助數(shù)據(jù)迭代。

細(xì)粒度中文理解的標(biāo)題優(yōu)化

從互聯(lián)網(wǎng)上抓取的圖文對(duì)通常是低質(zhì)量的,為圖像提供更好的對(duì)應(yīng)標(biāo)題對(duì)訓(xùn)練文本生成圖像模型非常重要。Hunyuan-DiT 采用訓(xùn)練良好的多模態(tài)大語(yǔ)言模型(MLLM)來(lái)重新生成原始圖文對(duì)的標(biāo)題,以提高數(shù)據(jù)質(zhì)量。采用結(jié)構(gòu)化標(biāo)題來(lái)全面描述圖像。此外,還使用原始標(biāo)題和包含世界知識(shí)的專家模型,以便在重新生成標(biāo)題時(shí)生成特殊概念。


使用結(jié)構(gòu)化標(biāo)題重新生成標(biāo)題現(xiàn)有的MLLMs,例如 BLIP-2 和 Qwen-VL,往往生成過(guò)于簡(jiǎn)化的標(biāo)題,這些標(biāo)題類似于 MS-COCO 標(biāo)題或高度冗余且與圖像無(wú)關(guān)的標(biāo)題。為了訓(xùn)練適合改進(jìn)原始圖文對(duì)的MLLM,我們構(gòu)建了一個(gè)大規(guī)模的結(jié)構(gòu)化標(biāo)題數(shù)據(jù)集,并對(duì)MLLM進(jìn)行了微調(diào)。


我們使用AI輔助pipeline來(lái)構(gòu)建數(shù)據(jù)集。人工標(biāo)注圖像標(biāo)題非常困難,且標(biāo)注質(zhì)量難以標(biāo)準(zhǔn)化。因此,使用三階段pipeline,通過(guò)AI輔助提高標(biāo)注效率。在第一階段,集成多個(gè)基本圖像標(biāo)注模型的標(biāo)題,并結(jié)合人工標(biāo)注,獲得初始數(shù)據(jù)集。在第二階段,用初始數(shù)據(jù)集訓(xùn)練MLLM,然后用訓(xùn)練好的模型為圖像生成新標(biāo)題。隨著重新生成標(biāo)題準(zhǔn)確性的提高,人工標(biāo)注的效率提高了約4倍。


我們的模型結(jié)構(gòu)類似于LLAVA-1.6,由視覺(jué)部分的ViT、語(yǔ)言部分的僅解碼LLM和連接視覺(jué)與文本的適配器組成。訓(xùn)練目標(biāo)是與其他自回歸模型相同的分類損失。


通過(guò)信息注入重新生成標(biāo)題在人類對(duì)結(jié)構(gòu)化標(biāo)題進(jìn)行標(biāo)注時(shí),世界知識(shí)總是缺失的,因?yàn)槿祟惒豢赡茏R(shí)別圖像中的所有特殊概念。我們采用兩種方法將世界知識(shí)注入標(biāo)題中:

  1. 通過(guò)標(biāo)簽注入重新生成標(biāo)題:為了簡(jiǎn)化標(biāo)注過(guò)程,可以標(biāo)注圖像的標(biāo)簽,并使用MLLM從標(biāo)注的標(biāo)簽生成包含標(biāo)簽的標(biāo)題。除了由人類專家進(jìn)行標(biāo)注外,我們還可以使用專家模型獲取標(biāo)簽,包括但不限于通用物體檢測(cè)器、地標(biāo)分類模型和動(dòng)作識(shí)別模型。從標(biāo)簽中獲取的附加信息可以顯著增加生成標(biāo)題中的世界知識(shí)。為此,我們?cè)O(shè)計(jì)了一個(gè)MLLM,將圖像和標(biāo)簽作為輸入,輸出包含標(biāo)簽信息的更全面的標(biāo)題。我們發(fā)現(xiàn)這個(gè)MLLM可以用非常稀疏的人類標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。
  2. 通過(guò)原始標(biāo)題重新生成標(biāo)題:Capsfusion提出了使用ChatGPT融合原始標(biāo)題和生成的描述性標(biāo)題。然而,原始標(biāo)題通常存在噪音,單靠LLM無(wú)法糾正原始標(biāo)題中的錯(cuò)誤信息。為了解決這個(gè)問(wèn)題,我們構(gòu)建了一個(gè)MLLM,從圖像和原始標(biāo)題生成標(biāo)題,該模型可以通過(guò)考慮圖像信息來(lái)糾正錯(cuò)誤。

多輪對(duì)話中的提示增強(qiáng)

理解自然語(yǔ)言指令并與用戶進(jìn)行多輪交互對(duì)于文本到圖像系統(tǒng)至關(guān)重要。它有助于建立一個(gè)動(dòng)態(tài)而迭代的創(chuàng)作過(guò)程,逐步將用戶的想法逐步變?yōu)楝F(xiàn)實(shí)。在本節(jié)中,我們將詳細(xì)介紹如何賦予Hunyuan-DiT執(zhí)行多輪對(duì)話和圖像生成的能力。已經(jīng)有許多工作努力為文本到圖像模型配備了使用MLLM的多輪功能,例如Next-GPT、SEED-LLaMA、RPG和DALLE-3。這些模型要么使用MLLM生成文本提示,要么使用文本嵌入來(lái)為文本到圖像模型生成文本。我們選擇了第一種選擇,因?yàn)樯晌谋咎崾靖`活。我們訓(xùn)練MLLM以理解多輪用戶對(duì)話并輸出用于圖像生成的新文本提示。

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)


主題一致性的保證在多輪文本到圖像中,用戶可能要求AI系統(tǒng)多次編輯特定主題。我們的目標(biāo)是確??缍鄠€(gè)對(duì)話輪次生成的主題盡可能保持一致。為了實(shí)現(xiàn)這一目標(biāo),我們?cè)趯?duì)話AI代理的“對(duì)話提示”中添加了以下約束條件。對(duì)于基于前幾輪生成的圖像進(jìn)行的圖像生成,轉(zhuǎn)換后的文本提示應(yīng)滿足用戶當(dāng)前的需求,同時(shí)盡量少地改變與之前圖像使用的文本提示。此外,在給定對(duì)話的推理階段,我們固定了文本到圖像模型的隨機(jī)種子。這種方法顯著增加了對(duì)話中的主題一致性。

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

推理階段的優(yōu)化

工程優(yōu)化將Hunyuan-DiT部署給用戶是昂貴的,我們采用了多種工程優(yōu)化策略來(lái)提高推理效率,包括ONNX圖優(yōu)化、內(nèi)核優(yōu)化、運(yùn)算符融合、預(yù)計(jì)算和GPU內(nèi)存重用。


算法加速最近,提出了各種方法來(lái)減少基于擴(kuò)散的文本到圖像模型的推理步驟。我們嘗試將這些方法應(yīng)用于加速Hunyuan-DiT,出現(xiàn)了以下問(wèn)題:

  1. 訓(xùn)練穩(wěn)定性:觀察到對(duì)抗訓(xùn)練往往由于不穩(wěn)定的訓(xùn)練方案而導(dǎo)致崩潰。
  2. 適應(yīng)性:發(fā)現(xiàn)幾種方法導(dǎo)致的模型無(wú)法重用預(yù)訓(xùn)練的插件模塊或LoRAs。
  3. 靈活性:在實(shí)踐中,潛變一致性模型只適用于低步驟生成。當(dāng)推理步驟的數(shù)量超過(guò)一定閾值時(shí),其性能會(huì)下降。這種限制阻礙了我們?cè)谏尚阅芎图铀僦g靈活調(diào)整平衡。
  4. 訓(xùn)練成本:對(duì)抗訓(xùn)練引入了額外的模塊來(lái)訓(xùn)練鑒別模型,這對(duì)額外的GPU內(nèi)存和訓(xùn)練時(shí)間需求很大。


考慮到這些問(wèn)題,我們選擇了漸進(jìn)蒸餾。它具有穩(wěn)定的訓(xùn)練,并允許在加速比和性能之間平滑地進(jìn)行權(quán)衡,為我們提供了最便宜和最快的模型加速方式。為了鼓勵(lì)學(xué)生模型準(zhǔn)確模仿教師模型,我們?cè)谟?xùn)練過(guò)程中仔細(xì)調(diào)整了優(yōu)化器、無(wú)分類器指導(dǎo)和正則化。

評(píng)估協(xié)議

評(píng)估指標(biāo)

評(píng)估維度:在確定評(píng)估維度時(shí),參考了現(xiàn)有文獻(xiàn),并另外邀請(qǐng)了專業(yè)設(shè)計(jì)師和普通用戶參與訪談,以確保評(píng)估指標(biāo)既具有專業(yè)性又具有實(shí)用性。具體來(lái)說(shuō),在評(píng)估我們的文本到圖像模型的能力時(shí),采用了以下四個(gè)維度:文本-圖像一致性、AI偽影、主題清晰度和整體美感。對(duì)于引起安全問(wèn)題的結(jié)果(如涉及色情、政治、暴力或流血等),直接token為不可接受。


多輪交互評(píng)估:在評(píng)估多輪對(duì)話交互的能力時(shí),還評(píng)估了額外的維度,如指令符合性、主題一致性和多輪提示增強(qiáng)對(duì)圖像生成的性能。


評(píng)估數(shù)據(jù)集構(gòu)建

數(shù)據(jù)集構(gòu)建將人工生成的測(cè)試提示與人類創(chuàng)建的測(cè)試提示相結(jié)合,構(gòu)建了一個(gè)具有各種難度級(jí)別的分層評(píng)估數(shù)據(jù)集。具體而言,我們根據(jù)文本提示內(nèi)容的豐富程度、描述元素的數(shù)量(主題、主題修飾語(yǔ)、背景描述、風(fēng)格等)、元素是否常見(jiàn)以及是否包含抽象語(yǔ)義(如詩(shī)歌、成語(yǔ)、諺語(yǔ)等)等因素,將評(píng)估數(shù)據(jù)集分為三個(gè)難度級(jí)別 - 簡(jiǎn)單、中等和困難。

此外,由于使用人工創(chuàng)建測(cè)試提示時(shí)存在同質(zhì)性和長(zhǎng)期生產(chǎn)周期的問(wèn)題,我們依賴于LLM來(lái)增加測(cè)試提示的多樣性和難度,快速迭代提示生成,并減少人工勞動(dòng)。


評(píng)估數(shù)據(jù)集類別和分布在構(gòu)建分層評(píng)估數(shù)據(jù)集的過(guò)程中,分析了用戶在使用文本到圖像生成模型時(shí)使用的文本提示,并結(jié)合用戶訪談和專家設(shè)計(jì)師意見(jiàn),覆蓋了功能應(yīng)用、角色性質(zhì)、中國(guó)元素、多輪文本到圖像生成、藝術(shù)風(fēng)格、主題細(xì)節(jié)等主要類別。

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

不同的類別進(jìn)一步分為多個(gè)層次。例如,“主題細(xì)節(jié)”類別進(jìn)一步細(xì)分為動(dòng)物、植物、車輛和地標(biāo)等子類別。對(duì)于每個(gè)子類別,我們保持提示數(shù)量超過(guò)30。

評(píng)估執(zhí)行

評(píng)估團(tuán)隊(duì)評(píng)估團(tuán)隊(duì)由專業(yè)評(píng)估人員組成。他們具有豐富的專業(yè)知識(shí)和評(píng)估經(jīng)驗(yàn),能夠準(zhǔn)確執(zhí)行評(píng)估任務(wù)并提供深入分析。評(píng)估團(tuán)隊(duì)擁有50多名成員。


評(píng)估流程評(píng)估流程包括兩個(gè)階段:評(píng)估標(biāo)準(zhǔn)培訓(xùn)和多人校正。在評(píng)估標(biāo)準(zhǔn)培訓(xùn)階段,我們?yōu)樵u(píng)估人員提供詳細(xì)的培訓(xùn),以確保他們對(duì)評(píng)估指標(biāo)和工具有清晰的理解。在多人校正階段,讓多名評(píng)估人員獨(dú)立評(píng)估同一組圖像,然后總結(jié)和分析評(píng)估結(jié)果,以減輕評(píng)估人員之間的主觀偏見(jiàn)。


特別是,評(píng)估數(shù)據(jù)集以3級(jí)分層方式構(gòu)建,包括8個(gè)一級(jí)類別和70多個(gè)二級(jí)類別。對(duì)于每個(gè)二級(jí)類別,我們?cè)谠u(píng)估集中有30 - 50個(gè)提示。評(píng)估集總共有3000多個(gè)提示。具體來(lái)說(shuō),我們的評(píng)估分?jǐn)?shù)計(jì)算步驟如下:


  1. 計(jì)算單個(gè)提示的結(jié)果:對(duì)于每個(gè)提示,邀請(qǐng)多名評(píng)估人員獨(dú)立評(píng)估模型生成的圖像。然后,匯總評(píng)估人員的評(píng)估結(jié)果,并計(jì)算認(rèn)為圖像可接受的評(píng)估人員所占的比例。例如,如果有10名評(píng)估人員參與,其中7名認(rèn)為圖像可接受,則該提示的通過(guò)率為70%。
  2. 計(jì)算二級(jí)類別分?jǐn)?shù):根據(jù)內(nèi)容將提示分類為二級(jí)類別。同一二級(jí)類別下的每個(gè)提示具有相等的權(quán)重。對(duì)于同一二級(jí)類別下的所有提示,計(jì)算其通過(guò)率的平均值,以獲得該二級(jí)類別的分?jǐn)?shù)。例如,如果一個(gè)二級(jí)類別有5個(gè)通過(guò)率分別為60%、70%、80%、90%和100%的提示,則該二級(jí)類別的分?jǐn)?shù)為(60% + 70% + 80% + 90% + 100%) / 5 = 80%。
  3. 計(jì)算一級(jí)類別分?jǐn)?shù):基于二級(jí)類別分?jǐn)?shù),計(jì)算一級(jí)類別的分?jǐn)?shù)。對(duì)于每個(gè)一級(jí)類別,取其下屬二級(jí)類別分?jǐn)?shù)的平均值,以獲得一級(jí)類別分?jǐn)?shù)。例如,如果一個(gè)一級(jí)類別有3個(gè)二級(jí)類別分別為70%、80%和90%,則該一級(jí)類別的分?jǐn)?shù)為(70% + 80% + 90%) / 3 = 80%。
  4. 計(jì)算總體通過(guò)率:最后,根據(jù)每個(gè)一級(jí)類別的權(quán)重計(jì)算總體通過(guò)率。假設(shè)有3個(gè)一級(jí)類別,分別為70%、80%和90%,其權(quán)重分別為0.3、0.5和0.2,那么總體通過(guò)率將為0.3 ×70% + 0.5 ×80% + 0.2 ×90% = 79%。一級(jí)類別的權(quán)重是通過(guò)與用戶、設(shè)計(jì)師和專家進(jìn)行仔細(xì)討論確定的,如表2所示。

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

通過(guò)上述過(guò)程,我們可以獲得模型在不同類別級(jí)別上的通過(guò)率,以及總體通過(guò)率,從而全面評(píng)估模型的性能。


評(píng)估結(jié)果分析:在評(píng)估后,我們對(duì)結(jié)果進(jìn)行深入分析,包括:

  1. 對(duì)不同評(píng)估指標(biāo)(文本-圖像一致性、AI偽像、主題清晰度和整體美感)的結(jié)果進(jìn)行綜合分析,以了解模型在各個(gè)方面的表現(xiàn)。
  2. 對(duì)模型在不同難度級(jí)別任務(wù)上的表現(xiàn)進(jìn)行比較分析,以了解模型在處理復(fù)雜情景和抽象語(yǔ)義方面的能力。
  3. 確定模型的優(yōu)勢(shì)和劣勢(shì),為未來(lái)優(yōu)化提供方向。
  4. 與其他最先進(jìn)的模型進(jìn)行比較。

評(píng)估協(xié)議演進(jìn)

在評(píng)估框架的持續(xù)優(yōu)化中,將考慮以下幾個(gè)方面來(lái)改進(jìn)我們的評(píng)估協(xié)議以適應(yīng)新的挑戰(zhàn):

  • 引入新的評(píng)估維度;
  • 在評(píng)估反饋中添加深入分析,例如文本-圖像不一致發(fā)生的地點(diǎn)或扭曲位置的精確token;
  • 動(dòng)態(tài)調(diào)整評(píng)估數(shù)據(jù)集;
  • 利用機(jī)器評(píng)估來(lái)提高評(píng)估效率。

結(jié)果

定量評(píng)估

與最新技術(shù)的比較 將混沌-DiT與最新技術(shù)的模型進(jìn)行了比較,包括開(kāi)源模型(Playground 2.5、PixArt-α、SDXL)和閉源模型(DALL-E 3、SD 3、MidJourney v6)。遵循前面中的評(píng)估協(xié)議。所有模型都在四個(gè)維度上進(jìn)行評(píng)估,包括文本-圖像一致性、排除AI偽像的能力、主題清晰度和美感。如表1所示,與其他開(kāi)源模型相比,Hunyuan-DiT在所有四個(gè)維度上取得了最佳得分。與閉源模型相比,Hunyuan-DiT在主題清晰度和圖像美感方面可以達(dá)到與MidJourney v6和DALL-E 3等SOTA模型類似的性能。就總體通過(guò)率而言,Hunyuan-DiT在所有模型中排名第三,優(yōu)于現(xiàn)有的開(kāi)源替代方案。Hunyuan-DiT總共有15億參數(shù)。

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

消融研究

實(shí)驗(yàn)設(shè)置 我們遵循先前研究中的設(shè)置,在MS COCO 256×256驗(yàn)證數(shù)據(jù)集上使用零樣本Frechet Inception Distance(FID)評(píng)估模型的不同變體,通過(guò)從驗(yàn)證集中的提示生成30,000張圖像。還報(bào)告了這些生成圖像的平均CLIP分?jǐn)?shù),以檢查文本提示和圖像之間的對(duì)應(yīng)關(guān)系。這些消融研究是在較小的0.7B擴(kuò)散Transformer上進(jìn)行的。


跳過(guò)模塊的影響 長(zhǎng)跳過(guò)連接用于在U-Net中的對(duì)稱位置的編碼和解碼層之間實(shí)現(xiàn)特征融合。我們?cè)贖unyuan-DiT中使用跳過(guò)模塊來(lái)模仿這種設(shè)計(jì)。如圖所示,觀察到去除長(zhǎng)跳過(guò)連接會(huì)增加FID并降低CLIP分?jǐn)?shù)。


旋轉(zhuǎn)位置編碼(RoPE) 將正弦位置編碼(DiT中的原始位置編碼)與RoPE進(jìn)行了比較。結(jié)果如圖15所示。我們發(fā)現(xiàn)在大多數(shù)訓(xùn)練階段,RoPE位置編碼的性能優(yōu)于正弦位置編碼。特別是,我們發(fā)現(xiàn)RoPE加速了模型的收斂。我們假設(shè)這是由于RoPE能夠封裝絕對(duì)位置信息和相對(duì)位置信息。

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

我們還評(píng)估了在文本特征中包含一維RoPE位置編碼的情況,如圖15所示。我們發(fā)現(xiàn),將RoPE位置編碼添加到文本嵌入中并沒(méi)有帶來(lái)顯著的收益。文本編碼器我們?cè)u(píng)估了三種文本編碼方案:

  • 僅使用我們自己的雙語(yǔ)(中英文)CLIP
  • 僅使用多語(yǔ)言T5
  • 同時(shí)使用雙語(yǔ)CLIP和多語(yǔ)言T5。


在圖16中,僅使用CLIP編碼器的性能優(yōu)于僅使用多語(yǔ)言T5編碼器。此外,將雙語(yǔ)CLIP編碼器與多語(yǔ)言T5編碼器相結(jié)合,充分利用了CLIP的高效語(yǔ)義捕捉能力和T5的細(xì)粒度語(yǔ)義理解優(yōu)勢(shì),導(dǎo)致FID和CLIP分?jǐn)?shù)顯著提高。

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

我們還在圖17中探索了兩種合并CLIP和T5特征的方法:沿通道維度合并和沿長(zhǎng)度維度合并。我們發(fā)現(xiàn),沿文本長(zhǎng)度維度連接文本編碼器的特征可以獲得更好的性能。我們的假設(shè)是,通過(guò)沿文本長(zhǎng)度維度連接,模型可以充分利用Transformer的全局注意力機(jī)制來(lái)聚焦于每個(gè)文本槽。這有助于更好地理解和整合T5和CLIP提供的不同維度的語(yǔ)義信息。

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

總結(jié)

本報(bào)告介紹了構(gòu)建Hunyuan-DiT的整個(gè)流程,這是一個(gè)具有理解中文和英文能力的文本到圖像模型。報(bào)告闡明了Hunyuan-DiT的模型設(shè)計(jì)、數(shù)據(jù)處理和評(píng)估協(xié)議。通過(guò)從不同方面的努力結(jié)合起來(lái),Hunyuan-DiT在開(kāi)源模型中實(shí)現(xiàn)了在中文到圖像生成方面的最佳性能。希望Hunyuan-DiT能成為社區(qū)訓(xùn)練更好的文本到圖像模型的有用參考。

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

國(guó)內(nèi)首個(gè)中文原生DiT架構(gòu)SOTA大模型全面開(kāi)源!———Hunyuan-DiT技術(shù)報(bào)告詳解-AI.x社區(qū)

本文轉(zhuǎn)自 AI生成未來(lái) ,作者:Zhimin Li等


原文鏈接:  ??https://mp.weixin.qq.com/s/aEvVVSx_DC0OOWIlU9uZtA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦