屠榜多模態(tài)!謝賽寧團(tuán)隊(duì)用"先理解后生成"策略打造BLIP3-o:60k指令集+DiT雙殺VAE!
文章鏈接:https://arxiv.org/pdf/2505.09568
代碼鏈接:https://github.com/JiuhaiChen/BLIP3o
模型鏈接:https://huggingface.co/BLIP3o/BLIP3o-Model
預(yù)訓(xùn)練數(shù)據(jù):https://huggingface.co/datasets/BLIP3o/BLIP3o-Pretrain
優(yōu)化數(shù)據(jù):https://huggingface.co/datasets/BLIP3o/BLIP3o-60k
亮點(diǎn)直擊
- 創(chuàng)新架構(gòu)設(shè)計(jì): 首次采用擴(kuò)散Transformer生成CLIP語義特征,突破傳統(tǒng)VAE局限,實(shí)現(xiàn)高效訓(xùn)練與高質(zhì)量生成。
- 分階段訓(xùn)練策略: 通過“理解優(yōu)先,生成擴(kuò)展”的序列化訓(xùn)練,兼顧模型的雙向能力,避免聯(lián)合訓(xùn)練的性能沖突。
- 高質(zhì)量數(shù)據(jù)驅(qū)動(dòng): 基于GPT-4o構(gòu)建的BLIP3o-60k數(shù)據(jù)集,顯著提升生成圖像的美學(xué)與指令跟隨能力,填補(bǔ)領(lǐng)域空白。
總結(jié)速覽
解決的問題
- 統(tǒng)一多模態(tài)模型中圖像理解與生成的架構(gòu)設(shè)計(jì)和訓(xùn)練策略尚未充分探索。
- 現(xiàn)有方法在圖像表示(如VAE與CLIP特征)、訓(xùn)練目標(biāo)(如MSE與Flow Matching)和訓(xùn)練策略(如聯(lián)合訓(xùn)練與分階段訓(xùn)練)上的優(yōu)劣不明確。
- 缺乏高質(zhì)量指令微調(diào)數(shù)據(jù)集以提升生成圖像的美學(xué)質(zhì)量和人類偏好對齊。
提出的方案
- 引入基于擴(kuò)散Transformer的模型,生成語義豐富的CLIP圖像特征,替代傳統(tǒng)的VAE表示。
- 采用分階段預(yù)訓(xùn)練策略:先訓(xùn)練圖像理解任務(wù),再擴(kuò)展至圖像生成任務(wù),凍結(jié)理解部分以保持能力。
- 構(gòu)建高質(zhì)量指令微調(diào)數(shù)據(jù)集BLIP3o-60k,通過GPT-4o生成多樣化提示(場景、物體、人類動(dòng)作等)以優(yōu)化生成對齊。
應(yīng)用的技術(shù)
- 圖像表示:CLIP圖像編碼器提取高層語義特征,擴(kuò)散Transformer生成特征。
- 訓(xùn)練目標(biāo):Flow Matching損失替代MSE,提升生成多樣性和質(zhì)量。
- 訓(xùn)練策略:分階段訓(xùn)練(理解→生成)結(jié)合參數(shù)凍結(jié)。
- 數(shù)據(jù)構(gòu)建:基于GPT-4o的指令微調(diào)數(shù)據(jù)集BLIP3o-60k。
達(dá)到的效果
- 效率與質(zhì)量:CLIP特征訓(xùn)練效率更高,生成質(zhì)量優(yōu)于VAE;Flow Matching損失提升多樣性。
- 性能指標(biāo):BLIP3-o在MME-P(1682.6)、MMMU(50.6)、GenEval(0.84)等基準(zhǔn)上達(dá)到SOTA。
- 開源貢獻(xiàn):完整開源模型權(quán)重、代碼、訓(xùn)練腳本及數(shù)據(jù)集,推動(dòng)社區(qū)研究。
統(tǒng)一的多模態(tài)圖像生成與理解
動(dòng)機(jī)
近年來,開發(fā)同時(shí)支持圖像理解與生成的統(tǒng)一多模態(tài)架構(gòu)已成為一個(gè)前景廣闊的研究方向。諸如Janus、Show-o、MetaMorph、Janus-Pro和LMFusion等模型是早期嘗試在單一框架內(nèi)橋接圖像理解與生成的代表。最近,OpenAI的GPT-4o通過展示高質(zhì)量圖像生成和強(qiáng)大多模態(tài)理解能力,進(jìn)一步激發(fā)了這一范式的興趣。盡管關(guān)注度日益增長,但實(shí)現(xiàn)此類統(tǒng)一能力的底層設(shè)計(jì)原則和訓(xùn)練策略仍未得到充分探索。本研究旨在系統(tǒng)性地探究并推動(dòng)統(tǒng)一模型的開發(fā),我們首先明確闡述構(gòu)建統(tǒng)一多模態(tài)模型的關(guān)鍵動(dòng)機(jī)。
推理與指令跟隨
將圖像生成能力集成到自回歸模型(如多模態(tài)大語言模型MLLMs)中,有望繼承其預(yù)訓(xùn)練知識、推理能力和指令跟隨能力。例如,本文的模型能夠直接理解“一種長鼻子動(dòng)物”等提示,而無需重寫提示。這展現(xiàn)了傳統(tǒng)圖像生成模型難以企及的推理能力和世界知識。除推理外,當(dāng)MLLMs的指令跟隨能力被整合到統(tǒng)一架構(gòu)中時(shí),預(yù)計(jì)也能延續(xù)至圖像生成過程。
上下文學(xué)習(xí)
同時(shí)支持圖像理解與生成的統(tǒng)一模型天然具備上下文學(xué)習(xí)能力。此類模型中,先前生成的多模態(tài)輸出可作為后續(xù)生成的上下文,從而無縫支持迭代圖像編輯、視覺對話和逐步視覺推理。這消除了模式切換或依賴外部處理流程的需求,使模型能保持連貫性和任務(wù)連續(xù)性。
邁向多模態(tài)AGI
隨著人工智能向通用人工智能(AGI)發(fā)展,未來系統(tǒng)需超越純文本能力,無縫感知、解釋和生成多模態(tài)內(nèi)容。實(shí)現(xiàn)這一點(diǎn)需要從純文本架構(gòu)轉(zhuǎn)向統(tǒng)一的多模態(tài)架構(gòu),使其能跨模態(tài)推理與生成。此類模型對于構(gòu)建能以整體、類人方式與世界交互的通用智能至關(guān)重要。
結(jié)合自回歸與擴(kuò)散模型
OpenAI的GPT-4o近期在圖像理解、生成和編輯任務(wù)中展現(xiàn)了最先進(jìn)性能。其架構(gòu)的新興假設(shè)表明其采用混合流程:
這意味著自回歸和擴(kuò)散模型可能被聯(lián)合利用以結(jié)合兩者優(yōu)勢。受此混合設(shè)計(jì)啟發(fā),我們在研究中采用自回歸+擴(kuò)散框架。但該框架下的最優(yōu)架構(gòu)仍不明確。自回歸模型生成連續(xù)的中間視覺特征以逼近真實(shí)圖像表示,這引發(fā)兩個(gè)關(guān)鍵問題:第一,應(yīng)使用何種真實(shí)嵌入——用VAE還是CLIP將圖像編碼為連續(xù)特征?第二,自回歸模型生成視覺特征后,如何最優(yōu)地將其與真實(shí)圖像特征對齊,或更廣義地說,如何建模這些連續(xù)視覺特征的分布:通過簡單MSE損失,還是采用基于擴(kuò)散的方法?下面全面探索各種設(shè)計(jì)選擇。
統(tǒng)一多模態(tài)中的圖像生成
現(xiàn)在討論構(gòu)建統(tǒng)一多模態(tài)框架內(nèi)圖像生成模型的設(shè)計(jì)選擇。首先探索如何通過編碼器-解碼器架構(gòu)將圖像表示為連續(xù)嵌入,這對學(xué)習(xí)效率和生成質(zhì)量具有基礎(chǔ)性作用。
圖像編碼與重建
圖像生成通常始于用編碼器將圖像編碼為連續(xù)潛在嵌入,隨后通過解碼器從該嵌入重建圖像。這一編碼-解碼流程能有效降低圖像生成的輸入空間維度,提升訓(xùn)練效率。下文討論兩種廣泛使用的編碼器-解碼器范式。
變分自編碼器
變分自編碼器(VAEs)是一類生成模型,其學(xué)習(xí)將圖像編碼到結(jié)構(gòu)化的連續(xù)潛在空間。編碼器近似給定輸入圖像時(shí)潛在變量的后驗(yàn)分布,而解碼器從該潛在分布采樣重建圖像。潛在擴(kuò)散模型在此基礎(chǔ)上通過建模壓縮潛在表示的分布(而非原始像素)進(jìn)一步擴(kuò)展。通過在VAE潛在空間操作,這些模型顯著降低輸出空間維度,從而減少計(jì)算成本并實(shí)現(xiàn)更高效訓(xùn)練。去噪步驟后,VAE解碼器將生成的潛在嵌入映射回原始像素。
CLIP編碼器與擴(kuò)散解碼器
CLIP模型因其通過大規(guī)模圖文對比訓(xùn)練提取豐富高層語義特征的能力,已成為圖像理解任務(wù)的基礎(chǔ)編碼器。但利用這些特征進(jìn)行圖像生成仍具挑戰(zhàn),因CLIP最初并非為重建任務(wù)設(shè)計(jì)。Emu2提出實(shí)用方案:將CLIP編碼器與擴(kuò)散解碼器配對。具體而言,它使用EVA-CLIP將圖像編碼為連續(xù)視覺嵌入,并通過基于SDXL-base初始化的擴(kuò)散模型重建。訓(xùn)練時(shí),擴(kuò)散解碼器被微調(diào)以使用EVA-CLIP的視覺嵌入作為條件從高斯噪聲恢復(fù)原圖,而EVA-CLIP保持凍結(jié)。該過程將CLIP與擴(kuò)散模型有效結(jié)合為圖像自編碼器:CLIP編碼器將圖像壓縮為語義豐富的潛在嵌入,擴(kuò)散解碼器從這些嵌入重建圖像。值得注意的是,盡管解碼器基于擴(kuò)散架構(gòu),其訓(xùn)練采用重建損失而非概率采樣目標(biāo)。因此在推理時(shí),模型執(zhí)行確定性重建。
討論
VAE和CLIP-擴(kuò)散這兩種編碼器-解碼器架構(gòu)代表了圖像編碼與重建的不同范式,各有優(yōu)勢和權(quán)衡。VAE將圖像編碼為低層像素特征并提供更好重建質(zhì)量。此外,VAE作為現(xiàn)成模型廣泛可用,可直接集成到圖像生成訓(xùn)練流程中。相比之下,CLIP-擴(kuò)散需額外訓(xùn)練以使擴(kuò)散模型適配不同CLIP編碼器。但CLIP-擴(kuò)散架構(gòu)在圖像壓縮比方面優(yōu)勢顯著。例如在Emu2和本文的實(shí)驗(yàn)中,無論分辨率如何,每張圖像均可被編碼為固定長度64的連續(xù)向量,提供緊湊且語義豐富的潛在嵌入。而基于VAE的編碼器對高分辨率輸入傾向于生成更長的潛在嵌入序列,這會(huì)增加訓(xùn)練過程的計(jì)算負(fù)擔(dān)。
潛在圖像表示的建模
其中W表示可學(xué)習(xí)的投影矩陣。
流匹配
僅使用 MSE 損失只會(huì)將預(yù)測圖像特征Q對齊到目標(biāo)分布的均值。一個(gè)理想的訓(xùn)練目標(biāo)應(yīng)當(dāng)能夠建模連續(xù)圖像表示的概率分布。本文提出使用 流匹配(flow matching)方法 ,這是一種擴(kuò)散框架,可以通過迭代地將樣本從先驗(yàn)分布(例如高斯分布)遷移到目標(biāo)連續(xù)分布中進(jìn)行采樣。
討論
與離散 token 不同,離散 token 天然支持基于采樣的策略來探索多樣的生成路徑,而連續(xù)表示不具備這一特性。具體而言,在基于 MSE 的訓(xùn)練目標(biāo)下,對于給定的提示,預(yù)測出的視覺特征Q幾乎是確定性的。因此,生成的圖像(無論視覺解碼器是基于 VAE,還是基于 CLIP + Diffusion 架構(gòu))在多次推理中幾乎是相同的。這種確定性揭示了 MSE 目標(biāo)的一個(gè)關(guān)鍵局限性:它限制模型為每個(gè)提示生成一個(gè)固定輸出,從而限制了生成的多樣性。
相比之下,流匹配框架使模型能夠繼承擴(kuò)散過程中的隨機(jī)性。這使得模型可以在同一提示條件下生成多樣的圖像樣本,有助于更廣泛地探索輸出空間。然而,這種靈活性也帶來了模型復(fù)雜度的提升。與 MSE 相比,流匹配引入了額外的可學(xué)習(xí)參數(shù)。在本文實(shí)現(xiàn)中,使用了擴(kuò)散Transformer(DiT),并在實(shí)驗(yàn)中發(fā)現(xiàn)擴(kuò)大其容量能夠顯著提升性能。
設(shè)計(jì)選擇
不同的圖像編碼器–解碼器架構(gòu)和訓(xùn)練目標(biāo)的組合產(chǎn)生了多種圖像生成模型的設(shè)計(jì)選擇。這些設(shè)計(jì)選擇如下圖 3 所示,在很大程度上影響生成圖像的質(zhì)量和可控性??偨Y(jié)并分析了由不同編碼器類型(例如 VAE 與 CLIP 編碼器)和損失函數(shù)(例如 MSE 與流匹配)引入的權(quán)衡。
CLIP + MSE
參考 Emu2、Seed-X 和 Metamorph,使用 CLIP 將圖像編碼為 64 維的固定長度、語義豐富的視覺嵌入。自回歸模型被訓(xùn)練以最小化預(yù)測視覺特征 與真實(shí) CLIP 嵌入 之間的均方誤差(MSE)損失,如圖 3(a) 所示。在推理階段,給定文本提示 ,自回歸模型預(yù)測潛在視覺特征 ,隨后這些特征被傳遞給基于擴(kuò)散的視覺解碼器以重建真實(shí)圖像。
CLIP + 流匹配
作為 MSE 損失的替代方案,我們采用流匹配損失來訓(xùn)練模型預(yù)測真實(shí)的 CLIP 嵌入,如前圖 3(b) 所示。給定提示C ,自回歸模型生成一組視覺特征Q 。這些特征作為條件,用于引導(dǎo)擴(kuò)散過程,生成的預(yù)測 CLIP 嵌入用以逼近真實(shí)的 CLIP 特征。本質(zhì)上,推理流程包括兩個(gè)擴(kuò)散階段:第一個(gè)階段使用條件視覺特征Q迭代去噪為 CLIP 嵌入,第二個(gè)階段將這些 CLIP 嵌入轉(zhuǎn)化為真實(shí)圖像,依然是通過基于擴(kuò)散的視覺解碼器。該方法在第一階段允許進(jìn)行隨機(jī)采樣,從而提升圖像生成的多樣性。
VAE + 流匹配
我們也可以使用流匹配損失來預(yù)測真實(shí)的 VAE 特征,如圖 3(c) 所示,這類似于 MetaQuery。在推理時(shí),給定提示C ,自回歸模型生成視覺特征 Q。然后,在以Q為條件、逐步去除噪聲的過程中,通過 VAE 解碼器生成真實(shí)圖像。
VAE + MSE
由于本文的重點(diǎn)在于自回歸 + 擴(kuò)散的框架,不考慮 VAE + MSE 的方法,因?yàn)樗鼈兾窗魏螖U(kuò)散模塊。
實(shí)現(xiàn)細(xì)節(jié)
為了比較各種設(shè)計(jì)選擇,使用 Llama-3.2-1B-Instruct 作為自回歸模型。訓(xùn)練數(shù)據(jù)包括 CC12M、SA-1B 和 JourneyDB,總計(jì)約 2500 萬條樣本。對于 CC12M 和 SA-1B,我們使用 LLaVA 生成的詳細(xì)圖像描述;對于 JourneyDB,我們使用其原始的標(biāo)題說明。
結(jié)果
在 MJHQ-30k 數(shù)據(jù)集上報(bào)告了 FID 分?jǐn)?shù),用于評估圖像的審美質(zhì)量,同時(shí)使用 GenEval和 DPG-Bench 指標(biāo)評估提示對齊情況。每隔約 3,200 個(gè)訓(xùn)練步記錄一次各個(gè)設(shè)計(jì)方案的結(jié)果。下圖 4 顯示,CLIP + Flow Matching 在 GenEval 和 DPG-Bench 上獲得了最佳的提示對齊分?jǐn)?shù),而 VAE + Flow Matching 產(chǎn)生了最低(最佳)的 FID 分?jǐn)?shù),表明其審美質(zhì)量更高。
然而,F(xiàn)ID 存在固有的局限性:它衡量的是與目標(biāo)圖像分布的風(fēng)格偏差,往往忽視了真實(shí)的生成質(zhì)量與提示對齊程度。事實(shí)上,對 GPT-4o 在 MJHQ-30k 數(shù)據(jù)集上的 FID 評估得分約為 30.0,這進(jìn)一步說明在圖像生成評估中 FID 可能具有誤導(dǎo)性??傮w而言,我們的實(shí)驗(yàn)表明 CLIP + Flow Matching 是最有效的設(shè)計(jì)方案。
討論
在統(tǒng)一的多模態(tài)框架下對多種圖像生成設(shè)計(jì)方案進(jìn)行了全面評估。結(jié)果清楚地表明,CLIP 特征相比 VAE 特征能夠生成更加緊湊且語義豐富的表示,從而提高了訓(xùn)練效率。自回歸模型能夠更有效地學(xué)習(xí)這些語義層級的特征,而不是像素級別的特征。此外,流匹配被證明是更有效的訓(xùn)練目標(biāo),能夠更好地建模圖像分布,從而帶來更高的樣本多樣性和更佳的視覺質(zhì)量。
統(tǒng)一多模態(tài)模型的訓(xùn)練策略
在圖像生成研究的基礎(chǔ)上,下一步是開發(fā)一個(gè)統(tǒng)一的模型,既能執(zhí)行圖像理解,也能進(jìn)行圖像生成。我們在圖像生成模塊中采用 CLIP + Flow Matching。由于圖像理解也在 CLIP 的嵌入空間中進(jìn)行,我們將兩個(gè)任務(wù)對齊到同一個(gè)語義空間中,實(shí)現(xiàn)統(tǒng)一。在此背景下,討論實(shí)現(xiàn)該整合的兩種訓(xùn)練策略。
Finding1 當(dāng)將圖像生成集成到統(tǒng)一模型中時(shí),自回歸模型比像素級特征 (VAE) 更有效地學(xué)習(xí)語義級特征 (CLIP)。
Finding2 采用流量匹配作為訓(xùn)練目標(biāo),可以更好地捕捉潛在的圖像分布,從而提高樣本多樣性和視覺質(zhì)量。
聯(lián)合訓(xùn)練與順序訓(xùn)練
聯(lián)合訓(xùn)練
聯(lián)合訓(xùn)練圖像理解與圖像生成任務(wù)已經(jīng)成為近期工作的常見實(shí)踐,例如 Metamorph、Janus-Pro 和 Show-o。盡管這些方法在圖像生成方面采用了不同的架構(gòu),它們都通過混合圖像生成和圖像理解的數(shù)據(jù)實(shí)現(xiàn)多任務(wù)學(xué)習(xí)。
順序訓(xùn)練
不將圖像理解與生成一同訓(xùn)練,而是采用兩階段的方法。在第一階段,僅訓(xùn)練圖像理解模塊。在第二階段,凍結(jié)多模態(tài)大語言模型(MLLM)的主干,僅訓(xùn)練圖像生成模塊,該策略類似于 LMFusion 和 MetaQuery。
討論
在聯(lián)合訓(xùn)練設(shè)置中,盡管如 Metamorph所示,圖像理解與生成任務(wù)可能互相促進(jìn),但兩個(gè)關(guān)鍵因素影響其協(xié)同效果:(i)總數(shù)據(jù)量和(ii)圖像理解與生成數(shù)據(jù)之間的比例。
相比之下,順序訓(xùn)練提供了更大的靈活性:它允許我們凍結(jié)自回歸主干網(wǎng)絡(luò),同時(shí)保留圖像理解能力。我們可以將全部訓(xùn)練能力專用于圖像生成,避免聯(lián)合訓(xùn)練中的任務(wù)間干擾。也受到 LMFusion 和 MetaQuery 的啟發(fā),我們選擇順序訓(xùn)練來構(gòu)建統(tǒng)一的多模態(tài)模型,并將聯(lián)合訓(xùn)練留待后續(xù)工作中展開。
BLIP3-o:我們最先進(jìn)的統(tǒng)一多模態(tài)模型
基于前述研究發(fā)現(xiàn),采用 CLIP + Flow Matching 和順序訓(xùn)練策略,構(gòu)建了我們自己的最先進(jìn)統(tǒng)一多模態(tài)模型 —— BLIP3-o。
模型架構(gòu)
本文構(gòu)建了兩個(gè)不同規(guī)模的模型:
- 一個(gè)8B 參數(shù)模型,使用了專有數(shù)據(jù)進(jìn)行訓(xùn)練;
- 一個(gè)4B 參數(shù)模型,僅使用開源數(shù)據(jù)進(jìn)行訓(xùn)練。
考慮到目前已有強(qiáng)大的開源圖像理解模型(如 Qwen 2.5 VL ),跳過圖像理解階段,將圖像生成模塊直接建立在 Qwen 2.5 VL 上。
- 在 8B 模型中,凍結(jié) Qwen2.5-VL-7B-Instruct 的主干網(wǎng)絡(luò),僅訓(xùn)練擴(kuò)散Transformer(Diffusion Transformers),總計(jì)約1.4B 可訓(xùn)練參數(shù)。
- 4B 模型采用相同的圖像生成架構(gòu),但使用Qwen2.5-VL-3B-Instruct作為主干。
Diffusion Transformer 架構(gòu)我們在 Diffusion Transformer(DiT)中借鑒了Lumina-Next 模型的架構(gòu),后者基于改進(jìn)的 Next-DiT 架構(gòu),是一種可擴(kuò)展、高效的擴(kuò)散模型,面向文本生成圖像及通用多模態(tài)生成任務(wù)。
關(guān)鍵設(shè)計(jì)包括:
- 3D 旋轉(zhuǎn)位置嵌入(3D Rotary Position Embedding):在時(shí)間、高度和寬度維度上編碼時(shí)空結(jié)構(gòu),無需依賴可學(xué)習(xí)位置向量;
- Sandwich 歸一化:在 Attention/MLP 前后分別使用 RMSNorm,提高穩(wěn)定性;
- Grouped-Query Attention:降低計(jì)算開銷、增強(qiáng)模型表現(xiàn)。
實(shí)驗(yàn)證明,該架構(gòu)具備快速、高質(zhì)量的生成能力。
訓(xùn)練方案
階段 1:圖像生成預(yù)訓(xùn)練
對于8B 模型,使用約2,500 萬條開源數(shù)據(jù)(CC12M、SA-1B、JourneyDB),加上3,000 萬張專有圖像;圖像標(biāo)題由Qwen2.5-VL-7B-Instruct自動(dòng)生成,平均長度達(dá)120 個(gè) token;為增強(qiáng)對短提示的泛化能力,額外加入約10%(600 萬) 來自 CC12M 的短標(biāo)題(約 20 token);所有圖文對格式統(tǒng)一為:??"Please generate an image based on the following caption: <caption>"?
?;對于4B 模型,則僅使用前述 2,500 萬條開源數(shù)據(jù),并附帶3 百萬短標(biāo)題;公開發(fā)布了這2,500 萬詳細(xì)標(biāo)題和 3 百萬短標(biāo)題 數(shù)據(jù)集,以支持研究社區(qū)。
階段 2:圖像生成指令微調(diào)
在圖像生成預(yù)訓(xùn)練后,觀察到模型在以下方面存在弱點(diǎn):
- 復(fù)雜人體動(dòng)作(如:“一個(gè)人正在拉弓搭箭”);
- 常見物體(如:各種水果、蔬菜);
- 地標(biāo)建筑(如:金門大橋);
- 簡單文字(如:“Salesforce” 出現(xiàn)在街道上的文字);
雖然這些范疇已包含在預(yù)訓(xùn)練中,但由于語料數(shù)量有限,學(xué)習(xí)效果不足。為此我們進(jìn)行了針對性指令微調(diào):使用 GPT-4o 為每類生成約10,000 對提示–圖像數(shù)據(jù),構(gòu)建覆蓋這些范疇的定向微調(diào)集;為提升圖像美學(xué)質(zhì)量,還引入了 JourneyDB 和 DALL·E 3 的提示;最終匯總成一份約60,000 條高質(zhì)量提示–圖像對,并公開發(fā)布該 BLIP3o-60k 微調(diào)集。
實(shí)驗(yàn)結(jié)果
本文與多個(gè)現(xiàn)有統(tǒng)一多模態(tài)模型進(jìn)行了比較,包括:EMU2 Chat、Chameleon、Seed-X、VILA-U、LMfusion、Show-o、EMU3、MetaMorph、TokenFlow、Janus、Janus-Pro。
圖像理解任務(wù)
在以下基準(zhǔn)上進(jìn)行評估: VQAv2、MMBench、SeedBench、MM-Vet、MME-Perception、MME-Cognition、MMMU、TextVQA 和 RealWorldQA。 如下表 1 所示,BLIP3-o 8B 在大多數(shù)任務(wù)中取得了最佳表現(xiàn)。
圖像生成任務(wù)
本文報(bào)告以下指標(biāo):
- GenEval 與 DPG-Bench:評估提示對齊;
- WISE:評估模型的世界知識推理能力。
如下表 2 所示,BLIP3-o 8B 達(dá)到了:
- GenEval 分?jǐn)?shù):0.84
- WISE 分?jǐn)?shù):0.62
- DPG-Bench 分?jǐn)?shù)較低(但由于其為基于模型的自動(dòng)評估,準(zhǔn)確性不穩(wěn)定)
為彌補(bǔ) DPG-Bench 的不足,還對其所有提示進(jìn)行了人工評估。此外,發(fā)現(xiàn)僅使用BLIP3o-60k 微調(diào)集,就能顯著提升模型的提示對齊能力和圖像美學(xué)質(zhì)量,同時(shí)減少生成偽影。盡管一些難點(diǎn)(如復(fù)雜動(dòng)作)仍無法完全解決,但整體圖像質(zhì)量已獲得明顯改善。
Finding3 該模型能夠快速適應(yīng) GPT-4o 風(fēng)格,提高快速對準(zhǔn)和視覺質(zhì)量。該模型從人工智能生成的圖像中學(xué)習(xí)比從真實(shí)圖像中學(xué)習(xí)更有效。
人類研究
對大約 1,000 條來自 DPG-Bench 的提示進(jìn)行人類評估,比較 BLIP3-o 8B 與 Janus Pro 7B。在每條提示中,標(biāo)注員基于兩個(gè)指標(biāo)對圖像對進(jìn)行并排比較:
- 視覺質(zhì)量:說明為“所有圖像均由相同的文本輸入使用不同的方法生成。請根據(jù)視覺吸引力(如布局、清晰度、物體形狀和整體整潔性)選擇你最喜歡的圖像?!?/li>
- 提示對齊:說明為“所有圖像均由相同的文本輸入使用不同的方法生成。請選擇與圖文內(nèi)容對齊度最佳的圖像?!?/li>
每個(gè)指標(biāo)分別評估兩輪,每項(xiàng)標(biāo)準(zhǔn)大約產(chǎn)生 3,000 個(gè)判斷結(jié)果。如下圖 6 所示,BLIP3-o 在視覺質(zhì)量和提示對齊方面均優(yōu)于 Janus Pro,盡管 Janus Pro 在前表 2 中取得了更高的 DPG 分?jǐn)?shù)。視覺質(zhì)量和提示對齊的 p 值分別為 5.05e-06 和 1.16e-05,表明本文的模型以高度統(tǒng)計(jì)顯著性優(yōu)于 Janus Pro。
未來工作
目前正在將本文的統(tǒng)一多模態(tài)模型擴(kuò)展到下游任務(wù),例如圖像編輯、多輪視覺對話以及圖文交錯(cuò)生成。作為第一步,將專注于圖像重建:將圖像輸入圖像理解視覺編碼器,再通過圖像生成模型進(jìn)行重建,以無縫連接圖像理解與生成。在此能力的基礎(chǔ)上,將收集指令微調(diào)數(shù)據(jù)集,以將模型適配于各種下游應(yīng)用。
總結(jié)
本文首次系統(tǒng)性地探索了混合自回歸與擴(kuò)散架構(gòu)在統(tǒng)一多模態(tài)建模中的應(yīng)用,評估了三個(gè)關(guān)鍵方面:圖像表示(CLIP 與 VAE 特征)、訓(xùn)練目標(biāo)(Flow Matching 與 MSE)以及訓(xùn)練策略(聯(lián)合訓(xùn)練與順序訓(xùn)練)。我們的實(shí)驗(yàn)表明,CLIP 嵌入結(jié)合 Flow Matching 損失在訓(xùn)練效率和輸出質(zhì)量方面均表現(xiàn)更優(yōu)?;谶@些見解,本文推出了 BLIP3-o 系列最先進(jìn)的統(tǒng)一模型,并輔以 60k 條指令微調(diào)數(shù)據(jù)集 BLIP3o-60k,在提示對齊和圖像美學(xué)方面顯著提升。我們正積極推進(jìn)該統(tǒng)一模型在迭代圖像編輯、視覺對話和逐步視覺推理等應(yīng)用中的發(fā)展。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
