VILA-U:融合視覺(jué)理解與生成的統(tǒng)一基礎(chǔ)模型(ICLR2025) 原創(chuàng)
摘要
VILA-U 是一個(gè)統(tǒng)一基礎(chǔ)模型,融合了視頻、圖像和語(yǔ)言的理解與生成能力。傳統(tǒng)的視覺(jué)語(yǔ)言模型(VLMs)在處理視覺(jué)內(nèi)容的理解和生成任務(wù)時(shí),使用獨(dú)立的模塊,這可能導(dǎo)致模塊間的不協(xié)調(diào)和模型復(fù)雜度的增加。相比之下,VILA-U 采用單一的自回歸下一個(gè)標(biāo)記預(yù)測(cè)框架來(lái)處理這兩項(xiàng)任務(wù),避免了使用如擴(kuò)散模型等額外組件的需求。這種方法不僅簡(jiǎn)化了模型結(jié)構(gòu),還在視覺(jué)語(yǔ)言理解和生成任務(wù)中取得了接近當(dāng)前最優(yōu)水平的性能。VILA-U 的成功主要?dú)w因于兩個(gè)關(guān)鍵因素:一是統(tǒng)一的視覺(jué)塔,它在預(yù)訓(xùn)練過(guò)程中將離散的視覺(jué)標(biāo)記與文本輸入對(duì)齊,從而增強(qiáng)了視覺(jué)感知能力;二是在高質(zhì)量數(shù)據(jù)集上進(jìn)行訓(xùn)練時(shí),自回歸圖像生成能夠達(dá)到與擴(kuò)散模型相似的效果。這使得 VILA-U 能夠在使用完全基于標(biāo)記的自回歸框架的情況下,與更為復(fù)雜的模型表現(xiàn)相媲美。我們的代碼已在??https://github.com/mit-han-lab/vila-u??開(kāi)源。
1、引言
近年來(lái),大語(yǔ)言模型(LLMs)在各種語(yǔ)言任務(wù)中展現(xiàn)出卓越的能力。它們具有遵循指令、零樣本泛化和少樣本上下文學(xué)習(xí)等吸引人的特性,這激發(fā)了研究人員將其與視覺(jué)模型相結(jié)合,構(gòu)建用于多模態(tài)任務(wù)的視覺(jué)語(yǔ)言模型(VLMs)。該領(lǐng)域的許多研究(Dai 等人,2024;Liu 等人,2024b;Lin 等人,2023)在視覺(jué)語(yǔ)言理解方面取得了顯著成果。在這些工作中,視覺(jué)輸入通過(guò)像 CLIP(Radford 等人,2021)這樣的視覺(jué)模型映射到 LLMs 的語(yǔ)義空間中,通過(guò)包含文本 - 圖像對(duì)齊目標(biāo)來(lái)彌合兩種模態(tài)之間的差距。
除了視覺(jué)理解,結(jié)合視覺(jué)和語(yǔ)言模態(tài)的另一個(gè)重要研究方向是視覺(jué)生成。目前,文本引導(dǎo)的圖像生成主要有兩種流行方法。一種方法是使用擴(kuò)散模型(Rombach 等人,2022a),這是一種在各種生成任務(wù)中都表現(xiàn)強(qiáng)大的工具。另一種方法則是通過(guò)向量量化(VQ)將視覺(jué)內(nèi)容轉(zhuǎn)換為離散標(biāo)記,然后利用自回歸變壓器進(jìn)行高質(zhì)量、多樣化的生成(Esser 等人,2021;Yu 等人,2021;Lee 等人,2022;Tian 等人,2024b;Sun 等人,2024)。
隨著視覺(jué)理解和生成技術(shù)的迅速發(fā)展,將這些技術(shù)統(tǒng)一到一個(gè)單一的多模態(tài)框架中成為一種新興趨勢(shì)。在 VILA-U 之前,實(shí)現(xiàn)這種統(tǒng)一主要有兩種方法:(1)一種方法(Liu 等人,2024a;Yu 等人,2023a;Xie 等人,2024)利用基于 VQGAN(Esser 等人,2021)的分詞器將視覺(jué)輸入轉(zhuǎn)換為離散標(biāo)記,并使用自回歸模型進(jìn)行理解和生成。然而,Xie 等人(2024)指出,基于 VQGAN 的編碼器生成的視覺(jué)標(biāo)記缺乏語(yǔ)義信息,這通常會(huì)導(dǎo)致在下游視覺(jué)理解任務(wù)中性能?chē)?yán)重下降。(2)另一種方法(Zhan 等人,2024;Ge 等人,2023b;Jin 等人,2023)利用碼本對(duì)像 CLIP 這樣的預(yù)訓(xùn)練視覺(jué)模型產(chǎn)生的特征進(jìn)行量化。由于 CLIP 特征編碼了豐富的語(yǔ)義信息,這些方法通常在理解任務(wù)上取得明顯更好的性能。但是,這些分詞器缺乏解碼能力,需要外部視覺(jué)生成模型(如擴(kuò)散模型),以生成的視覺(jué)標(biāo)記作為條件來(lái)產(chǎn)生視覺(jué)輸出。這種方法增加了基礎(chǔ)設(shè)施設(shè)計(jì)的復(fù)雜性?,F(xiàn)有的大規(guī)?;A(chǔ)模型訓(xùn)練管道和部署系統(tǒng)已經(jīng)針對(duì)基于下一個(gè)標(biāo)記預(yù)測(cè)的語(yǔ)言建模進(jìn)行了高度優(yōu)化。設(shè)計(jì)和維護(hù)一個(gè)額外的堆棧來(lái)支持?jǐn)U散模型將帶來(lái)巨大的工程成本。
在這項(xiàng)工作中,我們提出了 VILA-U,這是一個(gè)端到端的自回歸框架,具有統(tǒng)一的下一個(gè)標(biāo)記預(yù)測(cè)目標(biāo),適用于視覺(jué)和文本輸入。它能夠在視覺(jué)語(yǔ)言理解和生成任務(wù)中實(shí)現(xiàn)有競(jìng)爭(zhēng)力的性能,而無(wú)需像擴(kuò)散模型這樣的外部組件的幫助。我們確定了統(tǒng)一視覺(jué)和語(yǔ)言模態(tài)的兩個(gè)關(guān)鍵原則:(1)現(xiàn)有的統(tǒng)一端到端自回歸視覺(jué)語(yǔ)言模型無(wú)法實(shí)現(xiàn)具有競(jìng)爭(zhēng)力的視覺(jué)理解性能,因?yàn)殡x散的 VQGAN 標(biāo)記僅在圖像重建損失上進(jìn)行訓(xùn)練,并未與文本輸入對(duì)齊。因此,在 VQ 視覺(jué)塔預(yù)訓(xùn)練期間引入文本對(duì)齊以增強(qiáng)感知能力至關(guān)重要。(2)如果在足夠規(guī)模的高質(zhì)量數(shù)據(jù)上進(jìn)行訓(xùn)練,自回歸圖像生成可以達(dá)到與擴(kuò)散模型相似的質(zhì)量。受這些見(jiàn)解的啟發(fā),VILA-U 采用了統(tǒng)一的基礎(chǔ)視覺(jué)塔,通過(guò)向量量化將視覺(jué)輸入轉(zhuǎn)換為離散標(biāo)記,并使用對(duì)比學(xué)習(xí)將這些標(biāo)記與文本輸入對(duì)齊。VILA-U 的多模態(tài)訓(xùn)練在一個(gè)小尺寸的高質(zhì)量圖像 - 文本語(yǔ)料庫(kù)上,利用統(tǒng)一的下一個(gè)標(biāo)記預(yù)測(cè)目標(biāo)對(duì)視覺(jué)和文本標(biāo)記進(jìn)行訓(xùn)練。
我們?cè)诔R?jiàn)的視覺(jué)語(yǔ)言任務(wù)上對(duì) VILA-U 進(jìn)行了評(píng)估,包括圖像 - 語(yǔ)言理解、視頻 - 語(yǔ)言理解、圖像生成和視頻生成。VILA-U 顯著縮小了端到端自回歸模型與連續(xù)標(biāo)記視覺(jué)語(yǔ)言模型在視覺(jué)理解性能上的差距,同時(shí)引入了具有競(jìng)爭(zhēng)力的原生視覺(jué)生成能力。
2、相關(guān)工作
2.1 大語(yǔ)言模型(LLMs)
基于預(yù)訓(xùn)練大規(guī)模變壓器(Vaswani 等人,2017)的大語(yǔ)言模型徹底革新了自然語(yǔ)言處理領(lǐng)域。憑借巨大的模型規(guī)模和預(yù)訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù),大語(yǔ)言模型在各種語(yǔ)言任務(wù)中取得了顯著的性能。開(kāi)源大語(yǔ)言模型的發(fā)展,如 LLaMA(Touvron 等人,2023a)、Mixtral(Jiang 等人,2024)和 Vicuna(Chiang 等人,2023),進(jìn)一步推動(dòng)了關(guān)于如何將大語(yǔ)言模型應(yīng)用于復(fù)雜語(yǔ)言任務(wù)的研究。除了在不同領(lǐng)域具有出色的零樣本泛化能力外,大語(yǔ)言模型通常還在定制數(shù)據(jù)集上進(jìn)行微調(diào),以在特定任務(wù)中獲得更好的性能。指令調(diào)整(OpenAI,2023;Chung 等人,2024;Ouyang 等人,2022)也是在應(yīng)用大語(yǔ)言模型時(shí)獲得更好輸出的關(guān)鍵步驟。在這項(xiàng)工作中,我們采用 LLaMA-2-7B(Touvron 等人,2023a)模型作為我們的基礎(chǔ)大語(yǔ)言模型。
2.2 視覺(jué)語(yǔ)言模型(VLMs)
在這個(gè)大語(yǔ)言模型時(shí)代,計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的結(jié)合催生了視覺(jué)語(yǔ)言模型。在視覺(jué)語(yǔ)言模型中,研究人員利用諸如 CLIP(Radford 等人,2021)、BLIP(Li 等人,2022)和 CoCa(Yu 等人,2022)等視覺(jué)基礎(chǔ)模型來(lái)提取視覺(jué)特征,與文本對(duì)齊,并將其輸入到大語(yǔ)言模型中,以實(shí)現(xiàn)文本和視覺(jué)內(nèi)容之間的跨模態(tài)理解。在這些進(jìn)展的基礎(chǔ)上,許多視覺(jué)語(yǔ)言模型(Alayrac 等人,2022;Li 等人,2023b;Liu 等人,2024b;Lin 等人,2023;Luo 等人,2024;Tian 等人,2024a)已經(jīng)在廣泛的視覺(jué)語(yǔ)言數(shù)據(jù)上進(jìn)行設(shè)計(jì)和訓(xùn)練,以在視覺(jué)理解和推理任務(wù)中取得顯著的性能。在這項(xiàng)工作中,我們旨在開(kāi)發(fā)一種視覺(jué)語(yǔ)言模型,其視覺(jué)理解能力與先前的工作相當(dāng),同時(shí)還具備新的視覺(jué)生成能力。
2.3 統(tǒng)一視覺(jué)語(yǔ)言模型
人們已經(jīng)做出了許多努力來(lái)開(kāi)發(fā)能夠生成文本以及視覺(jué)內(nèi)容(包括圖像和視頻)的統(tǒng)一視覺(jué)語(yǔ)言模型。在視覺(jué)語(yǔ)言模型中,生成視覺(jué)內(nèi)容主要有兩種主流方法。許多工作(Sun 等人,2023b;a;Jin 等人,2023;Ge 等人,2023b;Li 等人,2023c;Ge 等人,2024;Jin 等人,2024;Ge 等人,2023a)將視覺(jué)語(yǔ)言模型與像 Stable Diffusion(Rombach 等人,2022a)這樣的擴(kuò)散模型相結(jié)合,以實(shí)現(xiàn)高質(zhì)量的圖像生成。其他工作(Liu 等人,2024a;Yu 等人,2023a;Lu 等人,2023;Team,2024;Xie 等人,2024)采用基于 VQGAN 的視覺(jué)編碼器,將視覺(jué)輸入轉(zhuǎn)換為離散標(biāo)記,并讓大語(yǔ)言模型學(xué)習(xí)預(yù)測(cè)這些標(biāo)記。關(guān)于我們的方法與其他統(tǒng)一視覺(jué)語(yǔ)言模型之間區(qū)別的更多細(xì)節(jié),請(qǐng)參見(jiàn)附錄 A。
3、方法
這項(xiàng)工作提出了一個(gè)多模態(tài)框架,旨在有效地統(tǒng)一視覺(jué)和語(yǔ)言模態(tài)。實(shí)現(xiàn)這種統(tǒng)一的關(guān)鍵組件是一個(gè)統(tǒng)一的基礎(chǔ)視覺(jué)塔,它將視覺(jué)輸入轉(zhuǎn)換為與文本對(duì)齊的離散標(biāo)記,以及一個(gè)統(tǒng)一的多模態(tài)生成訓(xùn)練過(guò)程。圖 1 展示了我們框架中主要的多模態(tài)訓(xùn)練和推理過(guò)程的概述。
圖1:我們框架的多模態(tài)訓(xùn)練和推理過(guò)程概述:視覺(jué)輸入被標(biāo)記化為離散標(biāo)記,并與文本標(biāo)記連接形成多模態(tài)標(biāo)記序列。所有標(biāo)記都參與我們的下一個(gè)標(biāo)記預(yù)測(cè)過(guò)程,實(shí)現(xiàn)統(tǒng)一的訓(xùn)練目標(biāo)。在推理過(guò)程中,輸出標(biāo)記由我們的文本去標(biāo)記器或視覺(jué)塔解碼器解碼,以生成多模態(tài)內(nèi)容。
3.1 統(tǒng)一基礎(chǔ)視覺(jué)塔
為了支持多樣化的視覺(jué)理解和生成任務(wù),我們首先構(gòu)建了一個(gè)統(tǒng)一的基礎(chǔ)視覺(jué)塔,以提供合適的視覺(jué)特征。我們建議在視覺(jué)塔訓(xùn)練中納入文本 - 圖像對(duì)比損失和基于 VQ 的圖像重建損失,賦予視覺(jué)塔文本對(duì)齊和離散標(biāo)記化的能力。如圖 2 所示,從圖像中提取的特征主要通過(guò)殘差量化進(jìn)行離散化。然后,在一條路徑中,離散的視覺(jué)特征被輸入到解碼器中以重建圖像并計(jì)算重建損失;在另一條路徑中,我們計(jì)算離散視覺(jué)特征與文本編碼器提供的文本特征之間的文本 - 圖像對(duì)比損失。通過(guò)這個(gè)訓(xùn)練過(guò)程,視覺(jué)塔學(xué)習(xí)提取適用于我們視覺(jué)語(yǔ)言模型中理解和生成任務(wù)的離散特征。
圖2:我們統(tǒng)一基礎(chǔ)視覺(jué)塔概述:給定輸入圖像,視覺(jué)編碼器提取的特征通過(guò)殘差量化進(jìn)行離散化。然后,離散的視覺(jué)特征同時(shí)輸入到視覺(jué)解碼器中以重建圖像,并用于執(zhí)行文本 - 圖像對(duì)齊。在此過(guò)程中,計(jì)算重建損失和對(duì)比損失以更新視覺(jué)塔,使其能夠生成與文本對(duì)齊的離散視覺(jué)特征。
統(tǒng)一訓(xùn)練方法
從頭開(kāi)始使用兩個(gè)目標(biāo)訓(xùn)練統(tǒng)一視覺(jué)塔是困難的,因?yàn)閷?duì)齊和重建任務(wù)分別需要高級(jí)語(yǔ)義特征和低級(jí)外觀(guān)特征。同時(shí)使用這兩個(gè)目標(biāo)從頭開(kāi)始訓(xùn)練整個(gè)視覺(jué)塔可能會(huì)導(dǎo)致目標(biāo)沖突。在實(shí)踐中,我們觀(guān)察到,使用圖像重建和對(duì)比損失從頭開(kāi)始訓(xùn)練向量量化的視覺(jué)塔,在經(jīng)過(guò)幾個(gè)訓(xùn)練周期后,在 ImageNet(Deng 等人,2009a)上的零樣本圖像分類(lèi)的 Top-1 準(zhǔn)確率僅為 5%。
為了解決這個(gè)問(wèn)題,我們嘗試了不同的訓(xùn)練方法(失敗的方法列在附錄 C 中),并發(fā)現(xiàn)以下解決方案最為有效。我們建議不要同時(shí)學(xué)習(xí)兩個(gè)目標(biāo),而是首先賦予模型文本 - 圖像對(duì)齊能力,然后在保持對(duì)齊能力的同時(shí)學(xué)習(xí)重建能力。我們使用來(lái)自 CLIP 模型的預(yù)訓(xùn)練權(quán)重初始化視覺(jué)編碼器和文本編碼器,以確保良好的文本 - 圖像對(duì)齊。接下來(lái),我們凍結(jié)文本編碼器,并使所有視覺(jué)組件在對(duì)比損失和重建損失下保持可訓(xùn)練狀態(tài)。對(duì)比損失保持對(duì)齊能力,而重建損失培養(yǎng)重建能力。這種方法收斂迅速,并產(chǎn)生強(qiáng)大的性能。預(yù)訓(xùn)練的 CLIP 權(quán)重包含已學(xué)習(xí)的高級(jí)先驗(yàn)知識(shí),從頭開(kāi)始學(xué)習(xí)這些知識(shí)既困難又計(jì)算成本高昂。使用這些權(quán)重進(jìn)行初始化,使視覺(jué)編碼器能夠更快、更易于處理地結(jié)合低級(jí)和高級(jí)特征。通過(guò)這種方法,我們可以訓(xùn)練出一個(gè)既具有良好文本對(duì)齊能力又具有圖像重建能力的視覺(jué)塔。我們使用加權(quán)和來(lái)組合文本 - 圖像對(duì)比損失和基于 VQ 的圖像重建損失:
L_{total} = w_{contra}L_{contra} + w_{recon}L_{recon} (1)
在我們的實(shí)驗(yàn)中,我們選擇w_{contra}=1和w_{recon}=1。
殘差向量量化
我們的視覺(jué)特征被離散量化,因此它們的表示能力在很大程度上取決于我們?cè)诹炕髦惺褂玫拇a本大小。由于我們希望它們同時(shí)包含高級(jí)和低級(jí)特征,我們需要在其向量特征空間中擁有更多的容量,這使得更大的碼本大小對(duì)于下游任務(wù)的良好性能是必要的。然而,每個(gè)圖像的碼本數(shù)量過(guò)多會(huì)導(dǎo)致在視覺(jué)生成過(guò)程中,大語(yǔ)言模型需要生成的標(biāo)記過(guò)多,從而產(chǎn)生大量延遲。因此,為了在增加向量特征容量的同時(shí),為大語(yǔ)言模型保持合理數(shù)量的標(biāo)記,我們采用了一種基于 RQ-VAE(Lee 等人,2022)的殘差向量量化方法,將向量z離散化為D個(gè)離散碼:
\mathcal{R} \mathcal{Q}(z ; \mathcal{C}, D)=\left(k_{1}, \cdots, k_{D}\right) \in[K]^{D}
(2)
其中\(zhòng)mathcal{C}是碼本,K = |\mathcal{C}|,k_k6zqhab033oa是z在深度d處的碼。從r_{0}=z開(kāi)始,我們通過(guò)以下方式遞歸地執(zhí)行向量量化:
\begin{aligned} k_k6zqhab033oa & =\mathcal{Q}\left(r_{d-1}, \mathcal{C}\right), \\ r_k6zqhab033oa & =r_{d-1}-e\left(k_k6zqhab033oa\right), \end{aligned}
對(duì)于每個(gè)深度d = 1,2,\cdots,D,其中e是碼本嵌入表,\mathcal{Q}是標(biāo)準(zhǔn)向量量化:
\mathcal{Q}(z ; \mathcal{C})=\underset{k \in[K]}{arg min }\| z-e(k)\| _{2}^{2}
(4)
z的量化向量是在深度維度上的求和:\widehat{z}=\sum_{i=1}^{D} e(k_{i})。直觀(guān)地說(shuō),在每個(gè)深度我們選擇一個(gè)碼來(lái)減少量化誤差。因此,與標(biāo)準(zhǔn)向量量化方法相比,我們有D個(gè)碼來(lái)量化一個(gè)向量,允許更精細(xì)的逼近和更大的特征空間。在多模態(tài)訓(xùn)練和推理過(guò)程中,大語(yǔ)言模型只需要預(yù)測(cè)碼本嵌入,不同深度的碼由一個(gè)深度變壓器依次生成,該變壓器以碼本嵌入作為初始輸入,如我們將在 3.2 節(jié)中介紹的。因此,通過(guò)這種殘差量化,我們可以在幾乎不增加延遲的情況下增強(qiáng)視覺(jué)塔的表示能力。
3.2 統(tǒng)一多模態(tài)生成預(yù)訓(xùn)練
圖 1 展示了我們統(tǒng)一多模態(tài)預(yù)訓(xùn)練過(guò)程的概述。我們的視覺(jué)塔編碼器按順序處理視覺(jué)輸入,生成一維標(biāo)記序列。然后,這個(gè)序列與文本標(biāo)記連接,形成一個(gè)多模態(tài)序列。為了區(qū)分不同模態(tài)并實(shí)現(xiàn)視覺(jué)內(nèi)容生成,我們插入特殊標(biāo)記:在圖像標(biāo)記的開(kāi)頭和結(jié)尾分別插入和 < image_end>,在視頻標(biāo)記的開(kāi)頭和結(jié)尾分別插入 < video_start > 和 < video_end>。視頻標(biāo)記是多幀圖像標(biāo)記的直接連接。
預(yù)訓(xùn)練數(shù)據(jù)形式
在統(tǒng)一預(yù)訓(xùn)練數(shù)據(jù)方面,我們利用文本和視覺(jué)標(biāo)記之間的不同連接形式來(lái)促進(jìn)理解和生成。我們使用 [圖像,文本]、[文本,圖像] 和 [文本,視頻] 的形式,僅在每對(duì)中的后一個(gè)模態(tài)上添加監(jiān)督損失,以避免無(wú)條件的內(nèi)容生成并促進(jìn)模態(tài)對(duì)齊。我們還采用交錯(cuò)的文本和圖像連接形式來(lái)增強(qiáng)理解,僅在文本上應(yīng)用監(jiān)督損失。值得注意的是,出于效率原因,我們?cè)陬A(yù)訓(xùn)練期間排除了 [視頻,文本] 的形式,因?yàn)槲覀儼l(fā)現(xiàn)在有監(jiān)督的微調(diào)期間納入它可以有效地產(chǎn)生出色的視頻理解能力。
訓(xùn)練目標(biāo)
由于視覺(jué)標(biāo)記和文本標(biāo)記都是離散的,我們可以使用通用的語(yǔ)言建模下一個(gè)標(biāo)記預(yù)測(cè)目標(biāo)來(lái)訓(xùn)練我們的大語(yǔ)言模型。然而,由于對(duì)視覺(jué)標(biāo)記使用了殘差量化,文本和視覺(jué)標(biāo)記的訓(xùn)練目標(biāo)略有不同。對(duì)于文本標(biāo)記,負(fù)對(duì)數(shù)似然損失計(jì)算為:
\mathcal{L}_{text }=-\sum_{i=1}^{T} log P_{\theta}\left(y_{i} | y_{ <i}\right)< span> </i}\right)<>
圖片
其中T是多模態(tài)序列的長(zhǎng)度,i僅在文本標(biāo)記出現(xiàn)在位置i時(shí)計(jì)數(shù)。對(duì)于視覺(jué)標(biāo)記,殘差量化在每個(gè)視覺(jué)位置j引入了代碼的深度堆疊結(jié)構(gòu)。為了解決這個(gè)問(wèn)題,我們利用了 RQ-VAE(Lee 等人,2022)中引入的深度變壓器。具體來(lái)說(shuō),給定大語(yǔ)言模型為視覺(jué)位置j的視覺(jué)標(biāo)記生成的代碼嵌入h_{j},深度變壓器自回歸地預(yù)測(cè)D個(gè)殘差標(biāo)記((k_{j1}, ..., k_{jD}))。在訓(xùn)練過(guò)程中,深度變壓器在深度d的輸入v_{jd}定義為直到深度d - 1的代碼嵌入之和,即當(dāng)d>1時(shí):
v_{j d}=\sum_{d'=1}^{d-1} e\left(k_{j d'}\right)
并且v_{j1}=h_{j}。因此,深度變壓器基于之前直到d - 1的估計(jì)來(lái)預(yù)測(cè)下一個(gè)代碼,以更精細(xì)地估計(jì)特征\hat{z}_{j}。然后,視覺(jué)標(biāo)記的負(fù)對(duì)數(shù)似然損失為:
\mathcal{L}_{visual }=-\sum_{j=1}^{T} \sum_{d=1}^{D} log P_{\delta}\left(k_{j d} | k_{j, <d}\right)< span> </d}\right)<>
其中T是多模態(tài)序列的長(zhǎng)度,j僅在視覺(jué)標(biāo)記出現(xiàn)在位置j時(shí)計(jì)數(shù)。在多模態(tài)預(yù)訓(xùn)練期間,深度變壓器的權(quán)重被隨機(jī)初始化,并與大語(yǔ)言模型一起更新。
4、實(shí)驗(yàn)
在本節(jié)中,我們介紹了全面的實(shí)驗(yàn),以評(píng)估我們的方法在各種視覺(jué)理解和生成任務(wù)上的性能。首先,我們概述了實(shí)驗(yàn)設(shè)置,包括模型架構(gòu)、訓(xùn)練數(shù)據(jù)集和評(píng)估基準(zhǔn)。隨后,我們?cè)u(píng)估了統(tǒng)一基礎(chǔ)視覺(jué)塔的性能。然后,我們將我們的方法與其他流行的視覺(jué)語(yǔ)言模型在各種視覺(jué)理解和生成基準(zhǔn)上進(jìn)行比較。最后,我們給出了一些定性結(jié)果。
4.1 實(shí)驗(yàn)設(shè)置
在我們的實(shí)驗(yàn)中,我們采用 LLaMA-2-7B(Touvron 等人,2023b)作為基礎(chǔ)語(yǔ)言模型。對(duì)于視覺(jué)塔,我們選擇 SigLIP-Large-patch16-256 / SigLIP-SO400M-patch14-384(Zhai 等人,2023)作為視覺(jué)編碼器架構(gòu),并采用 RQ-VAE(Lee 等人,2022)中的殘差量化器、深度變換器以及解碼器架構(gòu)。量化器碼本大小為 16384。所有圖像和視頻都被調(diào)整為 256×256 / 384×384 的分辨率,每個(gè)圖像或視頻幀通過(guò)深度為 D = 4 / D = 16 的殘差量化轉(zhuǎn)換為 16×16×4 / 27×27×16 的代碼。我們?cè)?COYO-700M(Byeon 等人,2022)上訓(xùn)練視覺(jué)塔,并在 ImageNet(Deng 等人,2009b)上評(píng)估其零樣本分類(lèi)和重建性能。對(duì)于視覺(jué)理解,我們利用來(lái)自 ShareGPT4V(Chen 等人,2023)的 100 萬(wàn)對(duì) [圖像,文本] 數(shù)據(jù),以及來(lái)自 MMC4(Zhu 等人,2024)的 600 萬(wàn)對(duì)交錯(cuò)文本和圖像數(shù)據(jù)。對(duì)于視覺(jué)生成,我們納入了從我們內(nèi)部數(shù)據(jù)集精心挑選的 1500 萬(wàn)對(duì)高質(zhì)量 [文本,圖像] 數(shù)據(jù),以及來(lái)自 OpenVid(Nan 等人,2024)數(shù)據(jù)集的 100 萬(wàn)對(duì) [文本,視頻] 數(shù)據(jù)。在視覺(jué)生成中采用無(wú)分類(lèi)器引導(dǎo)(Ho & Salimans,2022),CFG 值設(shè)為 3。
為檢驗(yàn)視覺(jué)理解能力,我們?cè)趶V泛使用的基于零樣本圖像的視覺(jué)語(yǔ)言基準(zhǔn)測(cè)試上評(píng)估模型,這些基準(zhǔn)包括 VQAv2(Goyal 等人,2017)、GQA(Hudson & Manning,2019)、TextVQA(Singh 等人,2019)、POPE(Li 等人,2023d)、MME(Fu 等人,2024)、SEED(Li 等人,2023a)、MM-Vet(Yu 等人,2023b);以及基于視頻的視覺(jué)語(yǔ)言基準(zhǔn)測(cè)試,如 ActivityNet(Caba Heilbron 等人,2015)、MSVD(Chen & Dolan,2011)、MSRVTT(Xu 等人,2017)、TGIF(Li 等人,2016)。
為評(píng)估視覺(jué)生成能力,我們使用 MJHQ-30K(Li 等人,2024)和 GenAI-Bench(Lin 等人,2024)進(jìn)行圖像生成評(píng)估,使用 VBench(Huang 等人,2024)進(jìn)行視頻生成評(píng)估。MJHQ-30K 通過(guò)生成圖像與 3 萬(wàn)張高質(zhì)量圖像之間的 FID 分?jǐn)?shù)來(lái)反映圖像生成的整體能力。GenAI-Bench 是一個(gè)具有挑戰(zhàn)性的圖像到文本生成基準(zhǔn),用于反映圖像生成模型的綜合生成能力。Vbench 是一個(gè)全面的視頻生成模型基準(zhǔn)套件,它將生成質(zhì)量分解為多個(gè)明確的維度,以便進(jìn)行細(xì)粒度和客觀(guān)的評(píng)估。
4.2 統(tǒng)一基礎(chǔ)視覺(jué)塔
我們?cè)诒?1 中展示了常用的指標(biāo) —— 重建 FID(rFID)和在 ImageNet 上零樣本圖像分類(lèi)的 Top-1 準(zhǔn)確率,以此來(lái)衡量統(tǒng)一基礎(chǔ)視覺(jué)塔的重建能力和文本對(duì)齊能力。定性的重建結(jié)果請(qǐng)參考附錄 B.1。我們的模型比 VQ-GAN 取得了顯著更好的重建結(jié)果。在使用相同代碼形狀的情況下,我們的 rFID 略遜于 RQ-VAE。這是意料之中的,因?yàn)樵谟?xùn)練過(guò)程中引入對(duì)比損失旨在增強(qiáng)圖像理解,這導(dǎo)致了重建質(zhì)量的下降。對(duì)于文本對(duì)齊能力,我們的統(tǒng)一視覺(jué)塔在 256 / 384 分辨率下實(shí)現(xiàn)了 73.3 / 78.0 的 Top-1 準(zhǔn)確率。這證明了我們統(tǒng)一視覺(jué)塔卓越的文本對(duì)齊能力。然而,值得注意的是,視覺(jué)塔的 rFID 和 Top-1 準(zhǔn)確率都只是一個(gè)中間指標(biāo)。由于統(tǒng)一視覺(jué)塔是整個(gè)自回歸模型的一個(gè)組成部分,我們認(rèn)為它在下游任務(wù)(如視覺(jué)理解和生成)中的表現(xiàn)更具意義。
表1:我們統(tǒng)一視覺(jué)塔在ImageNet上的重建FID(rFID)和零樣本圖像分類(lèi)的Top-1準(zhǔn)確率
- 模型:列出不同模型,如VQ - GAN、RQ - VAE、本文提出的模型(Ours)。
- 預(yù)訓(xùn)練權(quán)重:各模型使用的預(yù)訓(xùn)練權(quán)重情況。
- 分辨率:模型處理圖像時(shí)的分辨率,如256×256、384×384。
- 代碼形狀:視覺(jué)特征量化后的代碼形狀,如16×16、8×8×4、16×16×4、27×27×16。
- rFID:反映模型重建圖像質(zhì)量的指標(biāo)。
- Top-1準(zhǔn)確率:衡量模型在零樣本圖像分類(lèi)任務(wù)中的性能指標(biāo)。
4.3 定量評(píng)估
視覺(jué)理解任務(wù)
表 2 和表 3 分別總結(jié)了我們的方法與其他領(lǐng)先的視覺(jué)語(yǔ)言模型在圖像 - 語(yǔ)言和視頻 - 語(yǔ)言基準(zhǔn)測(cè)試上的比較結(jié)果。與像 CLIP 這樣的基礎(chǔ)模型生成的連續(xù)視覺(jué)標(biāo)記這一主流選擇相比,基于 VQGAN 的離散視覺(jué)標(biāo)記與文本的對(duì)齊性較差,從而損害了視覺(jué)語(yǔ)言模型在視覺(jué)理解任務(wù)上的性能。借助我們的統(tǒng)一基礎(chǔ)視覺(jué)塔,即使使用離散視覺(jué)標(biāo)記,我們的模型也能達(dá)到接近領(lǐng)先視覺(jué)語(yǔ)言模型的性能。
表2:與領(lǐng)先方法在基于圖像的視覺(jué)語(yǔ)言基準(zhǔn)測(cè)試上的比較。即使使用離散視覺(jué)標(biāo)記類(lèi)型,在相同的大語(yǔ)言模型(LLM)規(guī)模下,我們的性能接近領(lǐng)先的視覺(jué)語(yǔ)言模型(VLMs),并在很大程度上超越了許多方法。表示在視覺(jué)語(yǔ)言模型訓(xùn)練期間觀(guān)察到了這些數(shù)據(jù)集中訓(xùn)練分割的圖像:對(duì)比了不同方法在VQAv2、GQA、TextVQA、POPE、MME、SEED、MM - Vet等基于圖像的視覺(jué)語(yǔ)言基準(zhǔn)測(cè)試中的性能,涉及的方法包括LLaVA - 1.5、VILA、Unified - IO 2等,展示了不同方法使用的大語(yǔ)言模型、視覺(jué)標(biāo)記類(lèi)型、分辨率以及在各基準(zhǔn)測(cè)試中的得分情況。
表3:與領(lǐng)先方法在基于視頻的視覺(jué)語(yǔ)言基準(zhǔn)測(cè)試上的比較。即使使用離散視覺(jué)標(biāo)記類(lèi)型,在相同的大語(yǔ)言模型(LLM)規(guī)模下,我們的方法性能接近最先進(jìn)的視覺(jué)語(yǔ)言模型(VLMs),超越了許多方法:呈現(xiàn)了不同方法在MSVD - QA、MSRVTT - QA、TGIF - QA、Activity Net - QA等基于視頻的視覺(jué)語(yǔ)言基準(zhǔn)測(cè)試中的結(jié)果,對(duì)比了如Unified - IO 2、Emu、Video - LLaMA等方法使用的大語(yǔ)言模型、視覺(jué)標(biāo)記類(lèi)型、分辨率以及在各基準(zhǔn)測(cè)試中的得分情況。
視覺(jué)生成任務(wù)
如表 4 所示,VILA-U 在 FID 指標(biāo)上優(yōu)于其他自回歸方法,并且與一些基于擴(kuò)散模型的方法性能相當(dāng)。這一結(jié)果表明了我們的方法在視覺(jué)生成方面的可行性。表 5 總結(jié)了我們的方法與其他視覺(jué)生成方法在 GenAI-Bench 上的定量結(jié)果。盡管我們的方法不如那些在數(shù)十億級(jí)圖像 - 文本對(duì)上進(jìn)行訓(xùn)練的基于擴(kuò)散模型的視覺(jué)生成方法,但在高級(jí)提示下,即使訓(xùn)練數(shù)據(jù)量少了幾個(gè)數(shù)量級(jí),我們的方法與 SD v2.1(Rombach 等人,2022b)和 SD-XL(Podell 等人,2023)的性能差距也相對(duì)較小。這進(jìn)一步表明,VILA-U 能夠通過(guò)我們的統(tǒng)一訓(xùn)練框架有效地學(xué)習(xí)視覺(jué)和文本模態(tài)之間的相關(guān)性。對(duì)于視頻生成,我們?cè)?VBench(Huang 等人,2024)上評(píng)估我們的方法,并與 Open-Sora(Zheng 等人)、CogVideo(Hong 等人,2022)和 CogVideoX(Yang 等人,2024)進(jìn)行比較。表 6 中的結(jié)果表明,我們的方法性能優(yōu)于 CogVideo,與 Open-Sora 相當(dāng),突出了我們方法的有效性。
表4:與其他視覺(jué)生成方法在MJHQ - 30K評(píng)估基準(zhǔn)上的比較:比較了不同視覺(jué)生成方法在MJHQ - 30K評(píng)估基準(zhǔn)上的表現(xiàn),列出了方法類(lèi)型(如Diffusion、Autoregressive)、訓(xùn)練圖像數(shù)量(部分未列出)以及FID指標(biāo)得分,涉及的方法有SD v2.1、SD - XL、PixArt、Playground v2.5、LWM、Show - o、本文提出的模型(Ours)等。
表5:與其他視覺(jué)生成方法在GenAI - Bench上的比較。結(jié)果表明,我們的方法優(yōu)于以前的自回歸視覺(jué)生成方法。對(duì)于需要更好的文本跟隨能力才能生成的高級(jí)提示,即使訓(xùn)練數(shù)據(jù)少得多,我們的方法與基于擴(kuò)散的方法之間的性能差距也相對(duì)較?。赫故玖瞬煌曈X(jué)生成方法在GenAI - Bench圖像生成基準(zhǔn)上的定量結(jié)果,對(duì)比了如SD v2.1、SD - XL、Midjourney v6、DALL - E 3、LWM、Show - o、本文提出的模型(Ours)等方法在屬性、場(chǎng)景、關(guān)系、空間、動(dòng)作、部分、總體等方面的得分情況。
表6:與其他視覺(jué)生成方法在VBench(Huang等人,2024)上的比較:呈現(xiàn)了不同視覺(jué)生成方法在VBench視頻生成基準(zhǔn)上的性能對(duì)比,列出了方法(如Open - Sora、CogVideo、CogVideoX、本文提出的模型(Ours))以及對(duì)應(yīng)的總分?jǐn)?shù)、質(zhì)量分?jǐn)?shù)、語(yǔ)義分?jǐn)?shù)。
4.4 定性評(píng)估
視覺(jué)理解
為了驗(yàn)證 VILA-U 在綜合視覺(jué)理解任務(wù)中的有效性,我們將其應(yīng)用于多個(gè)理解和推理任務(wù),圖 3 和圖 4 展示了一些示例。從結(jié)果中可以看出,VILA-U 在包括視覺(jué)描述和視覺(jué)問(wèn)答在內(nèi)的各種任務(wù)中具有通用性。此外,我們的模型繼承了 VILA(Lin 等人,2023)的一些重要能力,如多圖像理解、上下文學(xué)習(xí),如圖 5 和圖 6 所示。更多可視化結(jié)果可在附錄 B.2 和 B.3 中找到。
圖3:VILA-U能正確描述視頻并涵蓋所有細(xì)節(jié),這得益于我們視覺(jué)編碼器的文本對(duì)齊功能:提示:<視頻>\n詳細(xì)闡述視頻中的視覺(jué)和敘事元素。VILA-U(我們的模型):視頻中一個(gè)人穿著藍(lán)色T恤、卡其褲和帽子,在混凝土路上進(jìn)行一系列霹靂舞動(dòng)作。背景中有晴朗的天空、一座橋和一列駛過(guò)的火車(chē)。舞者的動(dòng)作很有活力,有旋轉(zhuǎn)、翻轉(zhuǎn)和倒立。光線(xiàn)明亮,表明是白天,陰影顯示太陽(yáng)位置較高。舞者的著裝很休閑,場(chǎng)景似乎是一條安靜、車(chē)輛稀少的道路。
圖4:VILA-U具有良好的視覺(jué)問(wèn)答能力。圖像和問(wèn)題來(lái)自VQAv2數(shù)據(jù)集的測(cè)試集
- 輸入圖像:展示了不同場(chǎng)景的圖片。
- 問(wèn)題:如“能看到水嗎?”“天空中有什么在飛?”“圖片中有多少輛摩托車(chē)?”等。
- 輸出:對(duì)應(yīng)問(wèn)題的正確回答,如“是”“風(fēng)箏”“2”等。
圖5:VILA-U具有良好的上下文學(xué)習(xí)能力。我們將兩個(gè)圖像 - 文本對(duì)和第三張圖像作為上下文輸入,以提示視覺(jué)語(yǔ)言模型
- 輸入少量示例 + 目標(biāo)圖像:展示了不同的圖像 - 文本對(duì),如“是駱駝的棲息地”對(duì)應(yīng)沙漠場(chǎng)景圖像,“是北極熊的棲息地”對(duì)應(yīng)雪地場(chǎng)景圖像等,以及一張目標(biāo)圖像。
- 輸出:根據(jù)輸入的上下文和目標(biāo)圖像進(jìn)行的合理回答。
圖6:VILA-U可以正確地對(duì)多幅圖像進(jìn)行推理
- 提示:如“Image 1:\nImage 2:\n兩張圖片的共同點(diǎn)和不同點(diǎn)是什么?”
- VILA-U(我們的模型)輸出:以?xún)蓮埌茇埖膱D片為例,回答“兩張圖片的共同點(diǎn)是都有一只熊貓。不同點(diǎn)是圖片1中的熊貓?zhí)稍趲r石上,而圖片2中的熊貓?zhí)稍谀绢^上”;以?xún)蓮埌瑯?shù)木的圖片為例,回答“兩張圖片的共同點(diǎn)是都有樹(shù),但兩張圖片的不同之處在于陽(yáng)光的角度。在圖片1中,陽(yáng)光透過(guò)樹(shù)木照耀,營(yíng)造出明亮活潑的氛圍。相比之下,圖片2中看不到太陽(yáng),呈現(xiàn)出更黑暗、更柔和的森林場(chǎng)景”。
視覺(jué)生成
我們?cè)趫D 7 中展示了一些視覺(jué)生成結(jié)果的示例。即使在相對(duì)較小的數(shù)據(jù)集上進(jìn)行訓(xùn)練,我們的模型也能夠應(yīng)用于圖像生成和視頻生成。在給定的示例中,我們的方法能夠根據(jù)用戶(hù)輸入生成美觀(guān)的圖像和連貫的視頻。更多可視化結(jié)果可在附錄 B.4 中找到。
圖7:VILA-U可以根據(jù)文本輸入生成高質(zhì)量的圖像和視頻:展示了一系列文本提示及其對(duì)應(yīng)的生成圖像示例,如“快樂(lè)的夢(mèng)幻貓頭鷹怪物坐在樹(shù)枝上,周?chē)胁噬W爍的粒子,森林背景,羽毛細(xì)節(jié)豐富”“一只可愛(ài)的橙色小貓從藍(lán)色滑梯上滑下,開(kāi)心又興奮。色彩鮮艷,水濺到鏡頭上”等文本對(duì)應(yīng)的生成圖像。
5、消融研究
5.1 對(duì)比損失對(duì)視覺(jué)理解的影響
我們?cè)谝曈X(jué)塔訓(xùn)練中納入對(duì)比損失,賦予其文本對(duì)齊能力。在多模態(tài)訓(xùn)練過(guò)程中,這種文本對(duì)齊能力對(duì)于增強(qiáng)模態(tài)融合以及在下游視覺(jué)語(yǔ)言任務(wù)中的性能至關(guān)重要。我們通過(guò)分別在有和沒(méi)有對(duì)比損失的情況下訓(xùn)練視覺(jué)塔,來(lái)驗(yàn)證這種對(duì)齊的重要性,并評(píng)估其對(duì)視覺(jué)語(yǔ)言理解性能的影響。在這個(gè)消融實(shí)驗(yàn)中,我們從 COYO-700M 中隨機(jī)抽取 2500 萬(wàn)數(shù)據(jù)來(lái)訓(xùn)練視覺(jué)塔。對(duì)于多模態(tài)訓(xùn)練,我們使用 ShareGPT4V 和 MMC4,但不包含文本 - 圖像和文本 - 視頻數(shù)據(jù)。表 7 前兩行的結(jié)果展示了文本對(duì)齊在實(shí)現(xiàn)強(qiáng)大的視覺(jué)語(yǔ)言理解性能中的關(guān)鍵作用。將數(shù)據(jù)集規(guī)模從 2500 萬(wàn)擴(kuò)展到 7 億進(jìn)一步提升了性能,這突出了在大規(guī)模數(shù)據(jù)集上學(xué)習(xí)文本對(duì)齊的重要性。
表7:對(duì)比損失對(duì)視覺(jué)理解的影響:展示了在不同預(yù)訓(xùn)練權(quán)重、數(shù)據(jù)規(guī)模和損失類(lèi)型下,模型在視覺(jué)語(yǔ)言理解任務(wù)中的性能表現(xiàn),包括Top - 1準(zhǔn)確率以及在VQAv2、POPE、MME、SEED、MM - Vet等基準(zhǔn)測(cè)試中的得分情況,以驗(yàn)證對(duì)比損失對(duì)視覺(jué)理解性能的影響。
5.2 對(duì)比損失對(duì)視覺(jué)生成的影響
我們進(jìn)行了兩個(gè)實(shí)驗(yàn)來(lái)展示對(duì)比損失對(duì)生成性能的影響。為提高效率,我們僅進(jìn)行文本到圖像的預(yù)訓(xùn)練,并使用 Sheared-LLaMA-1.3B(Xia 等人,2023)代替 LLaMA-2-7B 作為大語(yǔ)言模型。在第一個(gè)實(shí)驗(yàn)中,我們使用 RQ-VAE 作為視覺(jué)塔,其 rFID 為 1.30。在第二個(gè)實(shí)驗(yàn)中,我們采用我們的統(tǒng)一視覺(jué)塔。結(jié)果如表 8 所示。在 MJHQ-30K 上,我們的統(tǒng)一視覺(jué)塔產(chǎn)生的 FID 結(jié)果略遜于 RQ-VAE,這可能是由于對(duì)比損失導(dǎo)致其 rFID 較差。
表8:對(duì)比損失對(duì)視覺(jué)生成的影響:對(duì)比了使用不同視覺(jué)塔(RQ - VAE和本文提出的統(tǒng)一視覺(jué)塔)和大語(yǔ)言模型(Sheared - LLaMA - 1.3B)時(shí),在256×256分辨率下的rFID和FID指標(biāo),以探究對(duì)比損失對(duì)視覺(jué)生成性能的影響。
5.3 無(wú)分類(lèi)器引導(dǎo)的影響
我們?cè)谝曈X(jué)內(nèi)容生成過(guò)程中采用無(wú)分類(lèi)器引導(dǎo)。我們研究了 CFG 值對(duì)我們 256 分辨率模型的影響。表 9 中的結(jié)果表明,CFG 值為 3.0 時(shí)可獲得最佳 FID 分?jǐn)?shù)。
表9:無(wú)分類(lèi)器引導(dǎo)(CFG)的影響:展示了不同CFG值(1.0、2.0、3.0、5.0)對(duì)模型在視覺(jué)生成任務(wù)中FID指標(biāo)得分的影響。
6、結(jié)論與局限
我們提出了 VILA-U,這是一種新穎的統(tǒng)一視覺(jué)語(yǔ)言模型,它將視頻、圖像和語(yǔ)言的理解與生成任務(wù)集成到一個(gè)自回歸下一個(gè)標(biāo)記預(yù)測(cè)框架中。我們的方法比大多數(shù)為統(tǒng)一視覺(jué)生成和理解而利用擴(kuò)散模型等額外組件的視覺(jué)語(yǔ)言模型更加簡(jiǎn)潔,并且證明了自回歸方法可以達(dá)到與當(dāng)前最先進(jìn)的視覺(jué)語(yǔ)言模型相媲美的性能。我們相信 VILA-U 可以作為多種視覺(jué)語(yǔ)言任務(wù)的通用框架。
如 5.2 節(jié)所示,對(duì)比損失的引入影響了視覺(jué)塔的重建能力。在統(tǒng)一視覺(jué)塔中平衡這兩種能力是一個(gè)有趣且復(fù)雜的挑戰(zhàn),需要進(jìn)一步探索。此外,我們目前尚未觀(guān)察到理解和生成任務(wù)之間存在顯著的協(xié)同作用或相互增強(qiáng)效果。未來(lái),我們旨在研究和探索更有效的方法,使這些任務(wù)能夠相互補(bǔ)充和強(qiáng)化,從而充分實(shí)現(xiàn)統(tǒng)一視覺(jué)語(yǔ)言模型尚未開(kāi)發(fā)的潛力。
?
本文轉(zhuǎn)載自??AIRoobt?? ,作者:Yecheng Wu等
