自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="p3wrm"><li id="p3wrm"></li></p>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

MUMU：用文本、圖像引導(dǎo)，多模態(tài)圖像生成模型

發(fā)布于 2024-8-26 09:52

瀏覽

0收藏

傳統(tǒng)的文生圖模型僅使用文本提示有時(shí)無法完美還原用戶的提示詞，例如，生成一個(gè)穿著紅色披風(fēng)的超級(jí)英雄在城市中飛翔的圖像，傳統(tǒng)的文本到圖像生成模型可能會(huì)根據(jù)文本描述生成一個(gè)大致符合要求的圖像，但可能無法準(zhǔn)確呈現(xiàn)出用戶想要的超級(jí)英雄的具體形象或披風(fēng)的顏色和樣式。

為了提升圖片的生成準(zhǔn)確度，Sutter Hill的研究人員開發(fā)了可基于文本和圖像引導(dǎo)的多模態(tài)圖像生成模型MUMU。用戶不僅可以使用文本提示，還能使用要生成目標(biāo)圖像的參考圖，進(jìn)一步提升生成準(zhǔn)確率。

論文地址：https://arxiv.org/abs/2406.18790

MUMU：用文本、圖像引導(dǎo)，多模態(tài)圖像生成模型-AI.x社區(qū)

MUMU 的架構(gòu)是基于 SDXL 的預(yù)訓(xùn)練卷積 UNet，通過替換 SDXL 的輔助CLIP 文本編碼器，并將 SDXL 的主要 CLIP 文本編碼器替換為視覺語言模型 Idefics2 的隱藏狀態(tài)來構(gòu)建。

Idefics2由一個(gè)從 SigLIP初始化的視覺變換器用于嵌入圖像輸入，一個(gè)感知器變換器用于將圖像嵌入池化到固定的序列長(zhǎng)度，以及一個(gè)從Mistral 7b 初始化的大型視覺語言模型變換器組成。

MUMU：用文本、圖像引導(dǎo)，多模態(tài)圖像生成模型-AI.x社區(qū)

在 MUMU 架構(gòu)中，研究人員去除了感知器變換器，以使用更多的圖像token，這樣可以提高圖像質(zhì)量，并且圖像質(zhì)量在每個(gè)圖像大約 1000 個(gè)token時(shí)達(dá)到飽和。此外，還在 Idefics2 的隱藏狀態(tài)之上添加了一個(gè)小型的非因果 “適配器” 變換器。

為了增強(qiáng)模型的能力，研究團(tuán)隊(duì)采用了兩種類型的數(shù)據(jù)：合成數(shù)據(jù)和真實(shí)數(shù)據(jù)。合成數(shù)據(jù)由大約300萬張使用SDXL生成的圖像組成，并且這些圖像經(jīng)過了最低PickScore的篩選。

為了鼓勵(lì)模型區(qū)分內(nèi)容和風(fēng)格，每個(gè)內(nèi)容都配對(duì)了許多不同的風(fēng)格。此外，還使用了大語言模型從DiffusionDB中抽取內(nèi)容和風(fēng)格，并手動(dòng)觸發(fā)產(chǎn)生額外的內(nèi)容和風(fēng)格。

MUMU：用文本、圖像引導(dǎo)，多模態(tài)圖像生成模型-AI.x社區(qū)

另一方面，考慮到SDXL可能無法生成完美的、高分辨率的真實(shí)圖像，研究人員還加入了約200萬張高質(zhì)量的真實(shí)圖像，主要包含人物。這些圖像經(jīng)過篩選，確保它們是安全的、高分辨率的、無水印的，并且包含0或1個(gè)人物。隨后，這些圖像被盡可能地中心裁剪到人物上，并使用Llava 1.6進(jìn)行標(biāo)題化處理。

在訓(xùn)練過程中，研究團(tuán)隊(duì)在單個(gè) 8xH100 GPU 節(jié)點(diǎn)上使用 PyTorch FSDP 分兩個(gè)階段訓(xùn)練 MUMU。所有圖像都用黑色像素填充為正方形分辨率，圖像裁剪總是調(diào)整大小以滿足目標(biāo)分辨率。

在第一階段，每個(gè)提示最多插入四張圖像，每張圖像使用 324 個(gè)token，并且最多插入三個(gè)在輸入圖像中檢測(cè)到的對(duì)象的裁剪。30% 的時(shí)間還會(huì)額外插入輸入圖像的 canny 邊緣、深度或草圖的圖像。

MUMU：用文本、圖像引導(dǎo)，多模態(tài)圖像生成模型-AI.x社區(qū)

在第二階段，每個(gè)提示插入一個(gè)對(duì)應(yīng) 1296 個(gè)token的高分辨率人臉或人物裁剪，以觀察更多token是否能改善人臉質(zhì)量。

為了評(píng)估 MUMU 的性能，研究人員進(jìn)行了一系列測(cè)試。與 ChatGPT + DALLE - 3的對(duì)比測(cè)試表明，MUMU 在保留條件圖像的細(xì)節(jié)方面表現(xiàn)更好。例如，當(dāng)輸入一張現(xiàn)實(shí)生活中的人像和一張卡通風(fēng)格的圖像時(shí)，模型能成功輸出相同人物在卡通風(fēng)格下的圖像。

MUMU：用文本、圖像引導(dǎo)，多模態(tài)圖像生成模型-AI.x社區(qū)

輸入站立的人物和滑板時(shí)，模型能生成人物騎著滑板的畫面。MUMU 生成的圖像能夠更好地保留圖像的細(xì)節(jié)，而 ChatGPT + DALLE - 3則相對(duì)較差。

本文轉(zhuǎn)自 AIGC開放社區(qū) ，作者：AIGC開放社區(qū)

原文鏈接:??https://mp.weixin.qq.com/s/P3vuRhWrRMEggYes2Ts-Sw??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

蘋果推出多模態(tài)大模型MM1，能解釋圖像和文本數(shù)據(jù)

laojean ? 2539瀏覽 ? 0回復(fù)
文本直接生成多視角3D圖像，Meta推出創(chuàng)新模型

Aceryt ? 2324瀏覽 ? 0回復(fù)
圖像生成模型王牌——Diffusion Transformers系列工作梳理

海因斯DK ? 5357瀏覽 ? 0回復(fù)
將圖像自動(dòng)文本化，圖像描述質(zhì)量更高、更準(zhǔn)確了

輕薄滴假象 ? 2213瀏覽 ? 0回復(fù)
TextCoT：放大增強(qiáng)型多模態(tài)富文本圖像理解

AIRoobt ? 3134瀏覽 ? 0回復(fù)
?TextCoT：放大增強(qiáng)型多模態(tài)富文本圖像理解

AIRoobt ? 2973瀏覽 ? 0回復(fù)
Lumina-T2X: 一款集成圖像、視頻、音頻和3D生成的多模態(tài)擴(kuò)散模型

sword_hero ? 2709瀏覽 ? 0回復(fù)
Stable Diffusion這樣的文本-圖像生成模型有記憶嗎？

angel ? 2131瀏覽 ? 0回復(fù)
多模態(tài)大語言模型的演變?nèi)仡櫍。ㄒ曈X定位、圖像生成、編輯、理解）

angel ? 3677瀏覽 ? 0回復(fù)
UIUC提出InstructG2I：從多模態(tài)屬性圖合成圖像?，結(jié)合文本和圖信息生成內(nèi)容更豐富有趣！

angel ? 2352瀏覽 ? 0回復(fù)
五種時(shí)頻圖像一鍵切換，CVPR 頂會(huì)+多模態(tài)融合

Tang_Lan ? 2286瀏覽 ? 0回復(fù)
Emu3：開啟多模態(tài)人工智能新紀(jì)元 —— 視頻、圖像、文本三合一模型

穿越時(shí)空111 ? 2332瀏覽 ? 0回復(fù)
FGM：刷新流匹配模型單步文本到圖像生成紀(jì)錄！(浙大&卡內(nèi)基梅隆&北大&西湖大學(xué))

angel ? 2595瀏覽 ? 0回復(fù)
DeepSeek AI發(fā)布Janus：一款擁有圖像生成能力的1.3B多模態(tài)模型

Halo咯咯 ? 5795瀏覽 ? 0回復(fù)
五種時(shí)頻圖像一鍵切換，CVPR 頂會(huì)+多模態(tài)融合

Tang_Lan ? 3048瀏覽 ? 0回復(fù)
釋放多模態(tài)GraphRAG的力量：集成圖像特征以獲得更深入的洞察 - 2025最新PPT

知識(shí)圖譜科技 ? 2038瀏覽 ? 0回復(fù)
時(shí)序+圖像+文本，多模態(tài)增強(qiáng)的時(shí)序預(yù)測(cè)模型

海因斯DK ? 4233瀏覽 ? 0回復(fù)
2025首篇關(guān)于多模態(tài)大模型在富文本圖像理解上的全面研究綜述

PaperAgent ? 3352瀏覽 ? 0回復(fù)
IBM提出多模式圖像文本到文本模型SmolDocling，可實(shí)現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標(biāo)題高效轉(zhuǎn)換！

AIGCStudio ? 1266瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

剛剛，OpenAI發(fā)布GPT-image-1模型，更強(qiáng)吉卜力版本來啦 2025-04-24 09:57:36發(fā)布
字節(jié)跳動(dòng)開源多模態(tài)AI Agent—UI-TARS-1.5 2025-04-23 11:55:00發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實(shí)戰(zhàn)教程 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

2025年最值得關(guān)注的十大多模態(tài)大語言模型！ 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復(fù)

上一篇：美國(guó)律師協(xié)會(huì)：ChatGPT等生成式AI，能幫助律師提升效率

下一篇：突發(fā)！OpenAI展示草莓，很快發(fā)布“GPT-5”獵戶座！

社區(qū)精華內(nèi)容

目錄