自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

MUMU:用文本、圖像引導(dǎo),多模態(tài)圖像生成模型

發(fā)布于 2024-8-26 09:52
瀏覽
0收藏

傳統(tǒng)的文生圖模型僅使用文本提示有時(shí)無法完美還原用戶的提示詞,例如,生成一個(gè)穿著紅色披風(fēng)的超級(jí)英雄在城市中飛翔的圖像,傳統(tǒng)的文本到圖像生成模型可能會(huì)根據(jù)文本描述生成一個(gè)大致符合要求的圖像,但可能無法準(zhǔn)確呈現(xiàn)出用戶想要的超級(jí)英雄的具體形象或披風(fēng)的顏色和樣式。


為了提升圖片的生成準(zhǔn)確度,Sutter Hill的研究人員開發(fā)了可基于文本和圖像引導(dǎo)的多模態(tài)圖像生成模型MUMU。用戶不僅可以使用文本提示,還能使用要生成目標(biāo)圖像的參考圖,進(jìn)一步提升生成準(zhǔn)確率。


論文地址:https://arxiv.org/abs/2406.18790

MUMU:用文本、圖像引導(dǎo),多模態(tài)圖像生成模型-AI.x社區(qū)

MUMU 的架構(gòu)是基于 SDXL 的預(yù)訓(xùn)練卷積 UNet,通過替換 SDXL 的輔助CLIP 文本編碼器,并將 SDXL 的主要 CLIP 文本編碼器替換為視覺語言模型 Idefics2 的隱藏狀態(tài)來構(gòu)建。


Idefics2由一個(gè)從 SigLIP初始化的視覺變換器用于嵌入圖像輸入,一個(gè)感知器變換器用于將圖像嵌入池化到固定的序列長(zhǎng)度,以及一個(gè)從Mistral 7b 初始化的大型視覺語言模型變換器組成。

MUMU:用文本、圖像引導(dǎo),多模態(tài)圖像生成模型-AI.x社區(qū)

在 MUMU 架構(gòu)中,研究人員去除了感知器變換器,以使用更多的圖像token,這樣可以提高圖像質(zhì)量,并且圖像質(zhì)量在每個(gè)圖像大約 1000 個(gè)token時(shí)達(dá)到飽和。此外,還在 Idefics2 的隱藏狀態(tài)之上添加了一個(gè)小型的非因果 “適配器” 變換器。


為了增強(qiáng)模型的能力,研究團(tuán)隊(duì)采用了兩種類型的數(shù)據(jù):合成數(shù)據(jù)和真實(shí)數(shù)據(jù)。合成數(shù)據(jù)由大約300萬張使用SDXL生成的圖像組成,并且這些圖像經(jīng)過了最低PickScore的篩選。

為了鼓勵(lì)模型區(qū)分內(nèi)容和風(fēng)格,每個(gè)內(nèi)容都配對(duì)了許多不同的風(fēng)格。此外,還使用了大語言模型從DiffusionDB中抽取內(nèi)容和風(fēng)格,并手動(dòng)觸發(fā)產(chǎn)生額外的內(nèi)容和風(fēng)格。

MUMU:用文本、圖像引導(dǎo),多模態(tài)圖像生成模型-AI.x社區(qū)

另一方面,考慮到SDXL可能無法生成完美的、高分辨率的真實(shí)圖像,研究人員還加入了約200萬張高質(zhì)量的真實(shí)圖像,主要包含人物。這些圖像經(jīng)過篩選,確保它們是安全的、高分辨率的、無水印的,并且包含0或1個(gè)人物。隨后,這些圖像被盡可能地中心裁剪到人物上,并使用Llava 1.6進(jìn)行標(biāo)題化處理。


在訓(xùn)練過程中,研究團(tuán)隊(duì)在單個(gè) 8xH100 GPU 節(jié)點(diǎn)上使用 PyTorch FSDP 分兩個(gè)階段訓(xùn)練 MUMU。所有圖像都用黑色像素填充為正方形分辨率,圖像裁剪總是調(diào)整大小以滿足目標(biāo)分辨率。


在第一階段,每個(gè)提示最多插入四張圖像,每張圖像使用 324 個(gè)token,并且最多插入三個(gè)在輸入圖像中檢測(cè)到的對(duì)象的裁剪。30% 的時(shí)間還會(huì)額外插入輸入圖像的 canny 邊緣、深度或草圖的圖像。

MUMU:用文本、圖像引導(dǎo),多模態(tài)圖像生成模型-AI.x社區(qū)

在第二階段,每個(gè)提示插入一個(gè)對(duì)應(yīng) 1296 個(gè)token的高分辨率人臉或人物裁剪,以觀察更多token是否能改善人臉質(zhì)量。


為了評(píng)估 MUMU 的性能,研究人員進(jìn)行了一系列測(cè)試。與 ChatGPT + DALLE - 3的對(duì)比測(cè)試表明,MUMU 在保留條件圖像的細(xì)節(jié)方面表現(xiàn)更好。例如,當(dāng)輸入一張現(xiàn)實(shí)生活中的人像和一張卡通風(fēng)格的圖像時(shí),模型能成功輸出相同人物在卡通風(fēng)格下的圖像。

MUMU:用文本、圖像引導(dǎo),多模態(tài)圖像生成模型-AI.x社區(qū)

輸入站立的人物和滑板時(shí),模型能生成人物騎著滑板的畫面。MUMU 生成的圖像能夠更好地保留圖像的細(xì)節(jié),而 ChatGPT + DALLE - 3則相對(duì)較差。


本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/P3vuRhWrRMEggYes2Ts-Sw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦