自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

VARGPT:視覺自回歸多模態(tài)大語言模型中的統(tǒng)一理解與生成 原創(chuàng)

發(fā)布于 2025-5-7 07:00
瀏覽
0收藏

摘要

我們提出了 VARGPT,這是一種新穎的多模態(tài)大語言模型(MLLM),能夠在單一自回歸框架內統(tǒng)一視覺理解和生成。VARGPT 采用下一個 token 預測范式進行視覺理解,并采用下一個尺度預測范式進行視覺自回歸生成。該模型創(chuàng)新性地擴展了 LLaVA 架構,在多模態(tài)大語言模型中實現(xiàn)了高效的按比例自回歸視覺生成,同時在單一模型框架內無縫處理混合模態(tài)輸入和輸出。VARGPT 在專門構建的數據集上經歷了三階段統(tǒng)一訓練過程,包括預訓練階段和兩個混合視覺指令微調階段。統(tǒng)一訓練策略旨在實現(xiàn)視覺和文本特征的對齊,增強理解和生成的指令跟隨能力,并提高視覺生成質量。盡管基于 LLaVA 架構進行多模態(tài)理解,VARGPT 在各種以視覺為中心的基準測試中顯著優(yōu)于 LLaVA-1.5,例如視覺問答和推理任務。值得注意的是,VARGPT 自然支持自回歸視覺生成和指令到圖像合成能力,展示了其在視覺理解和生成任務中的多功能性。Project Page: https://vargpt-1.github.io/

 1. 引言 

近年來,多模態(tài)人工智能在理解和生成這兩個核心領域取得了重大突破。多模態(tài)大語言模型(MLLMs)[2, 5, 9, 48, 94]借助大語言模型(LLMs)強大的通用性[2, 85, 86],在理解多模態(tài)數據方面展現(xiàn)出卓越的能力。與此同時,去噪擴散概率模型(DDPMs)[24, 62]為圖像生成領域帶來了顯著進展,在文本到視覺模態(tài)的生成任務中表現(xiàn)優(yōu)異。此外,受自回歸大語言模型(如縮放定律[23, 29])優(yōu)勢特性的啟發(fā),許多研究通過預測下一個詞元(token)或下一個尺度來探索自回歸視覺生成,例如Emu3[87]、VAR[84]、LlamaGen[76]、HART[79]和Infinity[22]等,均取得了顯著成果。鑒于在視覺理解和生成方面取得的這些成就,近期的研究開始探索能夠處理理解和生成任務的統(tǒng)一模型,為此設計了各種統(tǒng)一架構來實現(xiàn)這一目標(如圖3所示)。近期的一些研究[18, 90, 91]嘗試將來自這兩個不同領域(如大語言模型和去噪擴散概率模型)的模型組合起來,形成一個能夠處理多模態(tài)理解和生成的統(tǒng)一系統(tǒng)(如圖3(3)所示)。例如,NExT-GPT[90]和SEEDX[18]可能依賴預訓練的擴散模型進行圖像生成。此外,LWM[53]、Chameleon[81]和Janus[88]探索了純粹的下一個詞元預測統(tǒng)一模型(如圖3(4)所示),而Dual Diffusion[46]研究了使用兩個擴散模型分別進行理解和生成。TokenFlow[64]探索了統(tǒng)一的圖像分詞器,但生成模型和理解模型是分開的。Show-o[91]提出在單個Transformer中結合自回歸和擴散模型范式(如圖3(4)所示)。Liquid[89]在同一空間中學習圖像和文本嵌入,并使用預測下一個詞元的范式實現(xiàn)自回歸視覺理解和生成。 


VARGPT:視覺自回歸多模態(tài)大語言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖 3:不同模型架構的比較,其中 “AR” 代表自回歸,“VAR” 表示視覺自回歸。我們對僅用于理解任務、僅用于生成任務以及統(tǒng)一理解和生成的架構,與我們提出的 VARGPT 模型進行了對比分析。VARGPT 被設計為純自回歸多模態(tài)模型,通過下一個 token 預測實現(xiàn)視覺理解,通過下一個尺度預測實現(xiàn)視覺生成。

在這項工作中,我們致力于在視覺自回歸多模態(tài)大語言模型中統(tǒng)一視覺生成和理解,使其自然地支持混合模態(tài)的輸入和輸出。與現(xiàn)有的所有統(tǒng)一模型不同,我們提出在一個統(tǒng)一模型中將理解和生成建模為兩種不同的范式:分別通過預測下一個詞元進行視覺理解,通過預測下一個尺度進行視覺生成,并訓練了一個名為VARGPT的新型統(tǒng)一模型。具體而言: 

1. 模型架構方面:VARGPT的核心結構借鑒了LLaVA-1.5-7B,同時我們額外引入了一個視覺解碼器和兩個用于視覺生成的額外視覺特征投影儀。這些投影儀用于生成的視覺特征和文本特征之間的相互映射。VARGPT采用自回歸方法預測下一個文本詞元,以進行視覺理解和問答。當預測到用于視覺生成的特殊詞元時,模型會自回歸地預測下一個尺度的詞元,并通過視覺解碼器獲得最終的輸出圖像。所提出的架構使VARGPT能夠在視覺自回歸多模態(tài)大語言模型中實現(xiàn)統(tǒng)一的理解和生成。 

2. 訓練方法方面:我們采用統(tǒng)一的指令微調方法來學習視覺理解和視覺生成。具體來說,我們通過將視覺詞元預測構建為指令跟隨格式,將指令微調擴展到視覺生成,并將構建的視覺生成指令數據集與來自LLaVA-1.5[49]的多輪對話指令數據集相結合進行混合訓練。通過所提出的統(tǒng)一指令微調,我們同時賦予多模態(tài)大語言模型理解和生成的能力。我們將訓練過程分為三個階段,包括一個預訓練階段和兩個指令微調階段。在第一階段的預訓練中,模型學習文本和視覺空間之間的特征映射。在第二和第三階段的指令微調中,VARGPT分別增強其在視覺問答和指令到圖像生成方面的能力。 

3. 訓練數據集方面:為了高效地訓練模型,我們構建并收集了128萬個用于第一階段預訓練的數據,118萬個用于第二階段混合視覺理解和生成指令微調的數據,以及140萬個用于第三階段視覺生成指令微調的數據。通過統(tǒng)一的指令跟隨格式,我們在混合視覺指令微調中統(tǒng)一了理解和生成的訓練。 大量實驗表明,我們的VARGPT能夠實現(xiàn)顯著的視覺理解能力(如圖1所示),并賦予多模態(tài)大語言模型視覺生成能力,自然地支持混合模態(tài)輸入和輸出(如圖2所示)。據我們所知,VARGPT是第一個支持在理解任務中預測下一個詞元、在生成任務中預測下一個尺度的統(tǒng)一模型,同時在理解能力方面超越了許多規(guī)模相當的多模態(tài)大語言模型和統(tǒng)一模型。


VARGPT:視覺自回歸多模態(tài)大語言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖 1:多個視覺理解與生成基準測試中各類多模態(tài)大語言模型的對比分析。CLIP 分數用于衡量文本到圖像的視覺生成,其余指標源自標準視覺問答基準和多模態(tài)理解基準。值得注意的是,我們的 VARGPT 模型在所有理解基準測試中均顯著優(yōu)于對比基線。此外,它還展現(xiàn)出卓越的指令到圖像生成能力,從而提升了其在各類視覺語言任務中的通用性和適用性。


VARGPT:視覺自回歸多模態(tài)大語言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖 2:VARGPT 在 ImageNet 上訓練生成的部分 256×256 樣本。VARGPT 支持用戶的文本和圖像指令,并同時輸出文本和圖像混合模態(tài)數據。

2. 相關工作

2.1 視覺生成

擴散模型 [25,74,75] 將圖像生成視為從噪聲到圖像的反向擴散過程。擴散模型的進展主要集中在采樣方法 [4,55] 和架構設計 [26,63] 上,催生了如 [57,63] 等令人印象深刻的模型。在擴散模型取得重大進展的背景下,基于流的生成模型 [1] 作為簡化框架出現(xiàn),推動了高級視覺生成模型的發(fā)展。自回歸模型 [14,97] 采用類似 GPT [65] 的技術來預測序列中的下一個 token。像 [12,15,67,76,77,87] 等工作利用類似 VQGAN [36] 的視覺 tokenizer 將圖像轉換為離散 token,實現(xiàn)了視覺數據的 token 化,并采用類似 GPT 的預測方法。最近,另一類基于預測下一個尺度的自回歸模型,如 VAR [84]、HART [79] 和 Infinity [22],引起了關注,并已被驗證可能具有與縮放定律 [23,29] 一致的特性。在這項工作中,我們的統(tǒng)一自回歸框架通過預測下一個尺度的范式來完成圖像生成任務。

2.2 多模態(tài)大語言模型

LLM [85,86] 的進步推動了 MLLM 的發(fā)展。MLLM 使用預訓練的 LLM 作為文本解碼器,通過連接器 [35,43] 將文本和圖像與視覺編碼器連接起來進行集成。LLaVA [49] 使用各種任務(如視覺問答和圖像描述)的數據以指令格式對模型進行微調,使模型能夠理解新指令并泛化到未見任務。LLaVA-1.5 [50] 和 LLaVA-NeXT [39,40,42,52,101] 系列通過更多樣和更高質量的數據集進一步提升了視覺理解性能。隨著架構優(yōu)化、創(chuàng)新訓練范式和多樣化數據的引入,一系列先進的 MLLM 應運而生,如 Qwen-VL [2]、mPLUG-Owl2 [95]、InternVL [7]、InstructBLIP [9]。

2.3 視覺理解與生成的統(tǒng)一模型

近年來,研究人員致力于在單個模型中統(tǒng)一理解和生成能力 [13,80,93]。大多數現(xiàn)有方法 [17,78,90] 嘗試將預訓練的擴散模型與現(xiàn)有系統(tǒng)集成。然而,這些系統(tǒng)本質上是將擴散模型視為外部工具,而非將其作為 MLLM 的內在生成能力。Show-o [92] 通過結合自回歸和(離散)擴散建模,能夠自適應處理各種混合模態(tài)的輸入和輸出。Li 等人 [46] 采用跨模態(tài)最大似然估計框架,顯著改進了現(xiàn)有的基于擴散的多模態(tài)模型。[3,83] 探索了使用自回歸方法將圖像生成集成到大型語言模型(LLM)中,取得了顯著成果。例如,LWM [53] 和 Chameleon [82] 利用 VQ tokenizer [14,84] 對圖像進行編碼,實現(xiàn)了對多模態(tài)理解和生成的同時支持。Janus [88] 通過將視覺編碼解耦為獨立路徑,進一步提高了模型的靈活性和性能,而 Dual Diffusion [46] 則研究了使用兩個擴散模型進行理解和生成。Liquid [89] 在同一空間中學習圖像和文本嵌入,并使用預測下一個 token 的范式實現(xiàn)自回歸視覺理解和生成。與所有現(xiàn)有統(tǒng)一模型不同,我們提出在統(tǒng)一模型中將理解和生成建模為兩種不同的范式:視覺理解采用下一個 token 預測,視覺生成采用下一個尺度預測。

3. 方法

3.1 模型架構

我們的 VARGPT 統(tǒng)一了視覺理解和生成,其架構如圖 4 所示。我們的架構遵循下一個 token 預測范式進行理解和問答,遵循下一個尺度預測范式進行圖像生成。

VARGPT:視覺自回歸多模態(tài)大語言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖 4:VARGPT 框架示意圖,它由(1)一個大語言模型、視覺編碼器和用于視覺理解的投影儀;(2)一個視覺解碼器和雙生成投影儀,用于視覺生成。VARGPT 在大語言模型主干中使用因果注意力機制,在視覺解碼器中使用塊因果注意力機制。

3.1.1 通過下一個 token 預測實現(xiàn)視覺理解

在視覺理解方面,我們的模型架構參考了 LLaVA-1.5 [50] 的結構,使用 Vicuna-7B-v1.5 [102] 作為 LLMθ,并采用 CLIP [66] 的視覺編碼器(ViT/14)作為視覺編碼器,同時使用兩層線性網絡作為投影儀。最初,用于視覺理解的圖像 Ximg 經過視覺編碼器處理生成嵌入 Himg,然后通過接口(如線性層)進行調整,以與通過查詢 Xquery 獲得的文本嵌入 Htxt 對齊。組合后的數據作為輸入提供給 LLM,LLM 以自回歸方式生成文本輸出 Ytxt,如下所示:


VARGPT:視覺自回歸多模態(tài)大語言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

其中,Ytxt_t 表示 Ytxt 的第 t 個 token,Ytxt_

3.1.2 通過下一個尺度預測實現(xiàn)視覺生成

在視覺生成方面,我們遵循 VAR [84] 的大部分設置,采用多尺度圖像 tokenizer 進行視覺 token 編碼和解碼。我們構建了兩個圖像生成投影儀,用于在 LLM 的輸入和輸出端轉換用于生成的視覺特征。此外,我們構建了一個額外的 2B 視覺解碼器 ?,包含 30 層 Transformer,用于解碼視覺特征,這在一定程度上可以避免文本解碼器中的知識與圖像生成知識之間的沖突。通過視覺解碼器獲得的圖像特征將進一步通過多尺度 VAE 解碼器解碼,生成可用的圖像。與文本解碼器(即 LLM)不同,視覺解碼器使用遵循 VAR [84] 中塊因果注意力的注意力機制,以支持預測下一個尺度的 token。此外,在將用于視覺生成的特征輸入視覺解碼器之前,我們添加絕對位置編碼,以進一步區(qū)分視覺 token 的位置信息。

形式上,我們將圖像的多尺度特征圖定義為通過多尺度 tokenizer 獲得的 (R1,R2,?,RK)。因此,下一個尺度的圖像 token 將以自回歸方式生成:


VARGPT:視覺自回歸多模態(tài)大語言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

3.1.3 混合模態(tài)生成的提示模板

為了區(qū)分用于文本生成的 token 和用于圖像合成的 token,我們設計了一些特殊的 token 標記。具體來說,我們使用用于圖像生成 token 的位置填充,表示圖像生成 token 的開始,表示生成結束。當 VARGPT 生成 < image_gen_start>token 時,與 < image_gen>token 相關的特征將通過投影儀處理,然后輸入視覺解碼器,以獲取圖像生成所需的特征。在視覺理解任務中,我們使用token 作為輸入圖像的表示。我們在附錄 7 中總結了 VARGPT 使用的提示模板。

3.1.4 無分類器引導(CFG)

CFG 顯著增強了生成擴散模型生成高保真樣本的能力。該方法將條件生成模型與同時訓練的無條件模型的分布估計相結合,從而提高了整體生成質量。受 DALL-E 2 [68]、VAR [84] 和 VAR-CLIP [100] 的啟發(fā),我們使用高斯噪聲作為輸入來模擬無條件生成。隨后,我們通過從條件生成的 logits 分布中減去無條件生成的概率,得到視覺輸出的最終分布。更多細節(jié)見附錄 7。

3.2 訓練

對于 VARGPT 模型訓練,我們提出了一階段預訓練過程和兩階段指令微調過程,如圖 5 所示。

3.2.1 階段 1:預訓練

我們使用 ImageNet [11] 中的圖像作為圖像源,構建用于預訓練兩個圖像生成投影儀的訓練數據。我們將預訓練數據組織成 128 萬單輪對話數據(具體數據構建見第 4 節(jié))。該預訓練階段的主要目的是訓練投影儀,使圖像生成特征與文本特征初步對齊。在預訓練期間,除了兩個用于圖像生成的投影儀外,我們凍結所有參數,如圖 5 所示。


VARGPT:視覺自回歸多模態(tài)大語言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖 5:VARGPT 的三個訓練階段,包括第一階段預訓練、第二和第三階段指令微調。

3.2.2 階段 2:視覺理解的監(jiān)督微調(SFT)

在第二階段,我們解凍語言模型和視覺編碼器特征輸出的投影儀,并使用我們精心構建的多輪對話和理解數據集進行訓練。該階段的主要目的是確保 VARGPT 保持出色的多輪對話、視覺理解和問答能力。此外,在該階段,我們從構建的 Imagenet-Instruct 數據集中引入 5K 樣本,使 VARGPT 能夠區(qū)分視覺理解和視覺生成任務。當用戶輸入生成指令時,VARGPT 可以通過輸出特殊 token準確響應,開始自回歸視覺生成。階段 2 訓練數據集的組成見第 4 節(jié)。

3.2.3 階段 3:視覺生成的監(jiān)督微調(SFT)

與第二階段相比,第三階段主要通過監(jiān)督微調提高 VARGPT 的指令到圖像能力。在該階段,我們解凍視覺解碼器和兩個用于視覺生成的投影儀,同時凍結其他參數進行 SFT,如圖 5 階段 3 所示。第三階段的訓練數據包括從 ImageNet 構建的 140 萬指令對(詳細信息見第 4 節(jié))。

4. 統(tǒng)一指令跟隨數據

在本節(jié)中,我們將詳細介紹三個不同訓練階段所使用的訓練數據集的來源,以及各類數據在其中的占比情況。值得注意的是,我們引入了圖像生成指令跟隨數據集(如圖8a所示),并闡述了其來源,以及利用大語言模型生成該數據集所采用的方法。通過這種方式,我們將視覺理解和生成的訓練方法統(tǒng)一為視覺指令微調。 


VARGPT:視覺自回歸多模態(tài)大語言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖8:我們構建和收集的數據分布,包括:(a)三個訓練階段的數據比例分解;(b)第二階段指令微調期間使用的混合指令數據分布。我們用于第二階段訓練的復合數據集源自LLaVA-1.5、LLaVA-OneVision和ImageNet-Instruct-130K。

4.1 生成指令跟隨數據集 

我們構建了兩個圖像生成指令跟隨數據集:ImageNet-Instruct-130K和ImageNet-Instruct-1270K。以ImageNet-Instruct-130K的構建為例,圖6展示了該數據集的一個樣本。

VARGPT:視覺自回歸多模態(tài)大語言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖6 ImageNet-Instruct-130K圖像生成指令跟隨數據集的一個樣本,其圖片說明文字是一個人淹沒在水下。代表用于填充圖像生成token位置的特殊token。

 - **ImageNet-1K-VL-Enriched**:我們采用ImageNet-1K-VL-Enriched數據集[34]作為基礎數據集。ImageNet-1K-VL-Enriched是ImageNet數據集的增強版本,其中的圖像描述是使用BLIP2[44]圖像字幕模型生成的。 

- **通過Deepseek-LLM構建ImageNet-Instruct-130K**:為構建用于指令微調數據集的問答格式,我們利用Deepseek-V3 Chat LLM[10](以下簡稱LLM)生成提示和答案的種子格式(Prompt_limit_seeds和Answer_limit_seeds)。如圖7(a)所示,Prompt_limit_seeds有效地模擬了用戶請求,而Answer_limit_seeds則模擬了VLLM與用戶之間的對話。我們從種子池中隨機選擇prompt_limit_seed、image_cap_limit_seed和answer_limit_seed,作為LLM調用模板中的元素。

 - **LLM調用模板**:我們從基礎數據集中隨機選擇4個圖像描述樣本,作為4-shot示例,引導大模型生成相應的對話樣本。如圖7(b)所示,我們對生成的提示和答案添加了相關約束,以確保輸出盡可能合規(guī)且多樣。我們隨機采樣了130K個圖像描述數據樣本,從而創(chuàng)建了用于ImageNet[11]圖像生成指令微調數據集的130K個樣本,并將其命名為ImageNet-Instruct-130K。附錄8中提供了關于數據集構建的更多詳細信息。

VARGPT:視覺自回歸多模態(tài)大語言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖7 所提出的圖像生成指令跟隨樣本生成的示意圖,包括(a)種子生成:我們利用大語言模型生成用于約束指令跟隨數據集創(chuàng)建的種子;(b)指令跟隨樣本生成:指令跟隨數據集的提示模板。

4.2 三個訓練階段的數據構成 - 

**階段1**:用于階段1預訓練的ImageNet-Instruct-class數據集包含128萬個單輪對話樣本,源自ImageNet,專注于學習類別與圖像之間的對應關系。假設類別是“魚”,格式如下:{‘prompt’: ‘請為我生成一張魚的圖像?!? ‘answer’: ‘生成的魚的圖像如下}。

 - **階段2**:我們在階段2使用的混合指令微調數據集來自LLaVA-1.5[51]、LLaVA-OneVision[41]和ImageNet-Instruct-130K。各部分組成如圖8b所示。

 - **LLaVA-1.5-665K**:LLaVA-1.5的指令跟隨數據集包含視覺問答(VQA)[20, 27, 60, 70]、光學字符識別(OCR)[61, 72]、區(qū)域級視覺問答[30, 31, 58]、視覺對話[49]和語言對話[71]數據。我們將所有665K個指令跟隨樣本都納入階段2的訓練中。

 - **LLaVA-OneVision**:LLaVA-OneVision的視覺指令微調數據整合了LLaVA-1.5及后續(xù)多個LLaVA-NeXT版本[39, 40, 42, 52, 101]的數據,并從互聯(lián)網上收集了開源數據集,通過設置特定格式的提示來整合數據并避免沖突。最終形成了一個320萬個樣本的高質量單圖像數據集。在去除K12 Printing子集中的樣本后,我們從該數據集中隨機采樣508K個樣本,納入階段2的訓練(值得注意的是,我們只采樣了5K個純文本問答對)。

 - **ImageNet-Instruct-130K**:我們從ImageNet-Instruct-130K數據集中隨機采樣5K個樣本,納入階段2的訓練。

 - **階段3**:在階段3,除了構建的ImageNet-Instruct-130K數據集外,我們還創(chuàng)建了一個更大的圖像生成指令跟隨數據集ImageNet-Instruct-1270K。與ImageNet-Instruct-130K相比,它擁有更多樣化的提示和答案模板(多達400個)。提示和答案的構建涉及模板與圖像描述的直接連接。 

5. 實驗

實驗細節(jié):對于用于圖像生成任務的圖像,我們將它們統(tǒng)一調整大小并裁剪為256x256像素,隨后應用與VAR [84] 中一致的預處理技術。對于用于視覺理解任務的圖像,我們遵循LLaVA-1.5框架中建立的預處理協(xié)議。我們的語言模型、視覺編碼器和視覺特征映射器使用LLaVA-1.5-7B-hf架構進行初始化。視覺解碼器使用VAR-d30參數進行初始化,包含大約20億模型參數。VARGPT中用于視覺生成的特征映射器進行隨機初始化,并在第一階段的預訓練中初步更新。我們采用類似于VAR [84] 的多尺度VQVAE [14] 進行圖像標記化,以支持按比例預測范式。表2全面總結了我們模型在三個訓練階段的訓練細節(jié)。在圖像生成過程中,我們模型的VARGPT的top-k和top-p采樣參數分別設置為900和0.95。此外,CFG(分類器自由引導)尺度參數配置為1.5。

評估基準:按照常見設置 [51, 52, 103],我們在一系列學術任務導向基準測試和最近為指令跟隨型MLLMs專門提出的基準測試中評估我們VARGPT在視覺理解方面的有效性,總共包括11個基準測試:(1)五個多模態(tài)基準測試,用于指令跟隨型MLLMs,包括MMbench-dev(en)[54]、SEED-bench [38]、MMMU [98]、POPE [45]和MME [16]基準測試。對于POPE基準測試,我們在隨機、流行和對抗性設置中進行評估,以準確率作為評估指標;(2)六個視覺中心問答基準測試,包括GQA [28]、TextVQA [73]、VQAv2 [19]、SciQA-img [56]、OKVQA [59]和VizWizQA [21]。對于視覺理解基準測試,我們使用lmmseval [99]中的設置以實現(xiàn)統(tǒng)一評估。對于視覺生成評估,我們構建了一個包含50,000條文本指令的評估數據集,以評估模型的生成能力。我們采用CLIPscore來評估文本指令與生成圖像之間的CLIP分數。此外,我們還使用Fréchet Inception Distance(FID)指標來評估我們VARGPT模型在ImageNet-1K數據集上訓練生成的圖像樣本的質量。

基線對比:我們對我們的VARGPT模型進行了對比分析,對比對象是其他用于視覺理解的多模態(tài)大型語言模型,這些模型與我們模型的規(guī)模相近。對比包括LLaVA1.5 [48]、MiniGPT-4 [5]和mPLUG-Owl2 [94]等杰出模型,以及InstructBLIP [9]和Qwen-VL [2]。此外,我們的對比研究還擴展到包括Chameleon [82]、SEEDLLaMA [17]、Show-o [91]和VILA-U [91]在內的統(tǒng)一模型。這一全面的對比使我們能夠評估VARGPT與該領域多種先進模型的關系。

5.1 主要結果

5.1.1 多模態(tài)基準評估

我們進行了零樣本多模態(tài)評估,并將 VARGPT 與各種用于視覺理解的多模態(tài)模型進行了比較,結果如表 1 所示。基于這些結果,我們有幾個詳細的觀察:(1)可以看出,我們的方法在視覺理解方面顯著優(yōu)于大多數現(xiàn)有的 MLLM 基線,包括 LLaVA-1.5 [48]、MiniGPT-4 [5]、InstructBLIP [9] 和 Qwen-VL [2]。我們的 VARGPT 在所有基準和一些視覺幻覺評估基準(如 POPE)上均取得了更高的性能,這表明了我們方法在視覺生成中的優(yōu)越性和泛化性。(2)盡管我們的視覺理解核心架構與 LLaVA-1.5 相似,但我們的方法取得了顯著更好的性能,并且在單個大型模型中支持視覺生成。(3)與支持生成和理解的其他統(tǒng)一模型(例如SEEDLLaMA [17]和VILA-U [91])相比,我們的模型自然支持混合模式輸出(在對話中連續(xù)輸出文本和圖像),并且在視覺理解方面取得了顯著更好的性能。此外,我們在LLaVA-Bench基準測試上進行了樣本分析,部分結果展示在表6中。觀察結果表明,與LLaVA-1.5相比,我們的方法在圖像理解能力方面表現(xiàn)出更高的水平,并且在識別和分析圖像中的幽默元素方面表現(xiàn)出更強的能力。


VARGPT:視覺自回歸多模態(tài)大語言模型中的統(tǒng)一理解與生成-AI.x社區(qū)


VARGPT:視覺自回歸多模態(tài)大語言模型中的統(tǒng)一理解與生成-AI.x社區(qū)


VARGPT:視覺自回歸多模態(tài)大語言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

表6:VARGPT展示了理解和解釋視覺內容中幽默元素的能力。

5.1.2 視覺問答任務評估

我們將各種視覺問答任務與現(xiàn)有方法進行了比較,結果如表 3 所示。如表 3 所示,我們有以下觀察:(1)VARGPT 在大多數理解基準上始終取得最佳結果,超越了相同參數規(guī)模的用于視覺理解的 MLLM。這進一步證明了 VARGPT 的有效性;(2)除了取得顯著的理解能力(如在 SciQA-img 基準上比 LLaVA-1.5 高 12.2%)外,與這些基線相比,VARGPT 還支持視覺生成能力。


VARGPT:視覺自回歸多模態(tài)大語言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

5.1.3 指令到圖像任務評估

為了評估 VARGPT 的視覺生成能力,我們構建了一個包含 5 萬個樣本的基于指令的問答生成評估數據集。該數據集中的指令描述來自 ImageNet-1K 圖像描述,每個類別限制 50 個樣本,以確保類間平衡表示。為了定量評估 VARGPT 的指令跟隨能力,我們評估了兩個關鍵指標:(1)5 萬張生成圖像與 ImageNet-1k 數據集之間的 FID 分數,(2)通過 CLIP 模型計算的指令與生成圖像之間的 CLIP 分數。評估結果如表 4 所示。此外,我們在圖 9 中提供了 VARGPT 生成的圖像和對話的可視化。觀察分析表明,VARGPT 能夠生成高度符合給定指令的高質量圖像。值得注意的是,VARGPT 展示了在單個對話中無縫集成文本描述和圖像生成的能力,使用單個統(tǒng)一模型處理多模態(tài)輸入和輸出。這種能力進一步凸顯了 VARGPT 在統(tǒng)一視覺生成和理解任務中的獨特優(yōu)勢。VARGPT 中使用的圖像生成數據集(128 萬 ImageNet)與其他統(tǒng)一模型(如 Show-1:3600 萬,VILA-U:1500 萬,Liquid:3000 萬圖像)相比,規(guī)模顯著更小且質量更低。因此,VARGPT 的圖像生成性能目前落后于這些方法。然而,通過數據縮放提高質量的潛力為未來的研究和發(fā)展提供了有希望的途徑。

VARGPT:視覺自回歸多模態(tài)大語言模型中的統(tǒng)一理解與生成-AI.x社區(qū)


VARGPT:視覺自回歸多模態(tài)大語言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

圖9:我們的VARGPT在ImageNet-1K上訓練生成的部分256×256樣本。VARGPT支持用戶文本命令輸入,并同時輸出文本和圖像模態(tài)數據。

5.2方法分析

我們從模型參數、訓練設置和數據效率等方面對我們的VARGPT進行了消融實驗,以詳細評估各個組件的有效性。具體來說,我們通過移除特定設置來評估組件的有效性,如表4和表5所示。

訓練策略對生成的影響:如表4所示,省略我們訓練協(xié)議中的任何一個階段或階段組合,都會導致我們模型的視覺生成性能顯著下降。值得注意的是,省略第三階段(涉及指令微調)會導致生成圖像的質量和模型遵循給定指令的能力大幅下降。這些發(fā)現(xiàn)強調了三個訓練階段在提高模型視覺生成質量和文本到圖像能力方面的重要作用。此外,我們還進行了額外的實驗,在第三階段訓練中選擇性地凍結映射器和視覺解碼器的參數。我們的觀察結果表明,如果在第三階段訓練中不微調這些組件,也會導致性能下降。這些結果共同為我們的三階段訓練策略的有效性提供了有力證據。在各種消融場景中觀察到的一致性能下降進一步強化了每個提議組件和階段的重要性。

訓練策略對理解的影響:為了評估我們的訓練策略對視覺理解能力的有效性,我們通過在第二階段訓練中選擇性地凍結組件進行了消融研究。具體來說,我們在第二階段進行指令微調時,分別進行了凍結映射器或LLM骨干的實驗。如表5所示,我們在兩種情況下都觀察到了顯著的性能下降。這些結果進一步驗證了我們的訓練策略在增強視覺理解能力方面的有效性。這一實證證據強調了允許映射器和LLM骨干在指令微調階段進行適應的重要性,突顯了我們提出的訓練方法對模型整體視覺理解能力的協(xié)同效應。


VARGPT:視覺自回歸多模態(tài)大語言模型中的統(tǒng)一理解與生成-AI.x社區(qū)

數據效率對理解的影響:此外,我們還對我們在第二階段訓練中使用的混合數據集進行了實驗。結果如表5所示。我們可以觀察到,移除任何一個理解數據集(502K或665K)都會對模型的理解性能產生負面影響。相反,當我們進一步納入我們構建的用于生成的指令數據集時,它增強了模型區(qū)分理解指令和生成指令的能力,并準確提高了VARGPT輸出用于視覺生成的特殊標記(即、和)的能力,而不會顯著影響其理解性能。

訓練損失曲線可視化:我們進一步展示了我們模型在第二階段和第三階段訓練過程中的損失曲線,如圖10所示。這些損失曲線的趨勢顯示出合理且一致的下降,為我們的學習策略的有效性提供了實證支持。對這些曲線的分析表明,訓練損失隨時間呈現(xiàn)出有原則的下降趨勢,這在相當程度上證實了我們提出的學習方法的有效性。此外,對第三階段損失曲線的仔細檢查表明,模型的視覺生成能力仍有很大的優(yōu)化潛力。這一觀察結果表明,延長訓練時間和擴大訓練數據集可能會在第三階段帶來進一步的視覺生成性能提升。


VARGPT:視覺自回歸多模態(tài)大語言模型中的統(tǒng)一理解與生成-AI.x社區(qū)


6. 結論、局限性與未來工作

6.1 結論

本文介紹了 VARGPT,這是一種新穎的 MLLM,成功地在統(tǒng)一自回歸框架內集成了視覺理解和生成。通過采用創(chuàng)新的下一個 token 和下一個尺度預測范式,VARGPT 將傳統(tǒng) MLLM 的能力擴展到包括高效的視覺自回歸生成。該模型的三階段訓練管道利用專門構建的數據集,實現(xiàn)了視覺和文本特征的有效對齊,增強了理解和生成能力。與 LLaVA-1.5 等現(xiàn)有模型相比,VARGPT 在各種以視覺為中心的任務上表現(xiàn)出卓越性能。此外,它在自回歸視覺生成和文本到圖像合成方面表現(xiàn)出非凡的熟練度。這些成就凸顯了 VARGPT 的多功能性和推動多模態(tài)人工智能領域發(fā)展的潛力,為統(tǒng)一多模態(tài)模型的未來研究提供了有意義的探索。

6.2 局限性

(1)由于我們的視覺生成數據集主要來源于 ImageNet,VARGPT 與某些擴散模型(如 SDv2.1 [69] 和更先進的模型如 FLUX [33])之間存在明顯的質量差距,這些模型在大規(guī)模高質量圖像數據集上進行了預訓練。這種差異主要歸因于訓練數據的不同。此外,在整個訓練過程中,生成圖像的分辨率始終設置為 256×256 像素。因此,當前版本的 VARGPT 僅支持該分辨率的自回歸圖像生成。(2)盡管 VARGPT 在指令理解和指令到圖像生成方面表現(xiàn)出初步的熟練度,在大多數情況下能夠有效跟隨用戶輸入指令,但在某些情況下,指令中的細微細節(jié)可能無法在生成的圖像中得到充分體現(xiàn)。這種局限性在某些情況下會表現(xiàn)出來,表明模型在全面捕捉和渲染復雜指令細節(jié)的能力上仍有改進空間。

6.3 未來工作

(1)為了實現(xiàn)更高質量的圖像生成并支持更高分辨率的輸出,我們計劃改進下一個尺度預測模型架構,擴展圖像數據集,提高圖像質量,并實現(xiàn)動態(tài)分辨率能力。(2)在后續(xù)版本的 VARGPT 中,我們打算探索支持統(tǒng)一自回歸視頻理解和生成。


本文轉載自公眾號AIRoobt ,作者:Xianwei Zhang等

原文鏈接:??https://mp.weixin.qq.com/s/PnzscA1LwdY0lDyX4v6njQ???

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-5-7 07:00:42修改
收藏
回復
舉報
回復
相關推薦