自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

調(diào)研120+模型!騰訊AI Lab聯(lián)合京都大學(xué)發(fā)布多模態(tài)大語言模型最新綜述

發(fā)布于 2024-3-27 20:58
瀏覽
0收藏

調(diào)研120+模型!騰訊AI Lab聯(lián)合京都大學(xué)發(fā)布多模態(tài)大語言模型最新綜述-AI.x社區(qū)

論文標(biāo)題:

MM-LLMs: Recent Advances in MultiModal Large Language Models

論文鏈接:

??https://arxiv.org/abs/2401.13601??

實時網(wǎng)站:

??https://mm-llms.github.io??

調(diào)研120+模型!騰訊AI Lab聯(lián)合京都大學(xué)發(fā)布多模態(tài)大語言模型最新綜述-AI.x社區(qū)

引言

多模態(tài)(MM)預(yù)訓(xùn)練研究在最近幾年取得了顯著進(jìn)展,持續(xù)推動了各種下游任務(wù)的性能邊界。然而,隨著模型規(guī)模和數(shù)據(jù)集的不斷擴(kuò)大,傳統(tǒng)的多模態(tài)模型在從頭開始訓(xùn)練時會產(chǎn)生大量的計算成本。

考慮到多模態(tài)研究處于各種模態(tài)的交集,一個合理的方法是利用現(xiàn)成的預(yù)訓(xùn)練單模態(tài)基礎(chǔ)模型,特別強調(diào)強大的大型語言模型(LLMs)。這一策略旨在減輕訓(xùn)練開銷并增強多模態(tài)預(yù)訓(xùn)練的效力,從而催生了一個新穎的領(lǐng)域:MM-LLMs。

MM-LLMs 利用 LLMs 作為認(rèn)知核心,賦予各種多模態(tài)任務(wù)能力。LLMs 提供了穩(wěn)健的語言生成、zero-shot 遷移能力和上下文學(xué)習(xí)(ICL)等可取特性。與此同時,其他模態(tài)的基礎(chǔ)模型提供了高質(zhì)量的表示。

考慮到不同模態(tài)的基礎(chǔ)模型是單獨預(yù)訓(xùn)練的,MM-LLMs 面臨的核心挑戰(zhàn)是如何有效地連接 LLMs 和其他模態(tài)的模型,以實現(xiàn)協(xié)同推理。在這一領(lǐng)域中,主要關(guān)注點是通過多模態(tài)預(yù)訓(xùn)練(MM PT)+ 多模態(tài)指令調(diào)整(MM IT)pipeline 來優(yōu)化模態(tài)之間的對齊,以及與人類意圖的對齊。

隨著 GPT-4(Vision)和 Gemini 的問世,展示了令人印象深刻的多模態(tài)理解和生成能力,MM-LLMs 的研究熱情被點燃。

最初的研究主要集中在多模態(tài)內(nèi)容理解和文本生成方面,涵蓋了諸如圖像-文本理解(例如 BLIP-2,LLaVA,MiniGPT-4 和 OpenFlamingo 等工作);視頻-文本理解(例如 VideoChat,Video-ChatGPT 和 LLaMA-VID 等工作);以及音頻-文本理解(例如 Qwen-Audio)等任務(wù)。

隨后,MM-LLMs 的能力擴(kuò)展到支持特定模態(tài)生成。這包括具有圖像-文本輸出的任務(wù),例如 GILL,Kosmos-2,Emu 和 MiniGPT-5 等;以及具有語音/音頻-文本輸出的任務(wù),例如 SpeechGPT 和 AudioPaLM 等工作。

最近的研究努力集中在模仿類人任意-任意模態(tài)轉(zhuǎn)換,為人工通用智能之路照明。一些工作旨在將 LLMs 與外部工具結(jié)合起來,實現(xiàn)接近任意-任意的多模態(tài)理解和生成,例如 Visual-ChatGPT,HuggingGPT 和 AudioGPT 等。

為了減少級聯(lián)系統(tǒng)中的傳播錯誤,一些工作(例如 NExT-GPT,CoDi-2 和 ModaVerse)已經(jīng)開發(fā)出任意模態(tài)的端到端 MM-LLMs。MM-LLMs 的時間軸如圖 1 所示。

調(diào)研120+模型!騰訊AI Lab聯(lián)合京都大學(xué)發(fā)布多模態(tài)大語言模型最新綜述-AI.x社區(qū)

在本文中,我們提出了一個全面的綜述,旨在促進(jìn)對 MM-LLMs 的進(jìn)一步研究。為了為讀者提供對 MM-LLMs 的整體理解,我們首先從模型架構(gòu)(第 2 節(jié))和訓(xùn)練流程(第 3 節(jié))中勾勒出一般的設(shè)計方案。

我們將一般模型架構(gòu)分解為五個組件:模態(tài)編碼器、輸入映射器、LLM 骨干、輸出映射器和模態(tài)生成器。訓(xùn)練流程闡明了如何增強預(yù)訓(xùn)練的純文本 LLM 以支持 MM 輸入或輸出,主要包括兩個階段:MM PT(第 3.1 節(jié))和 MM IT(第 3.2 節(jié))。

在該部分,我們還總結(jié)了用于 MM PT 和 MM IT 的主流數(shù)據(jù)集。接下來,我們建立了一個分類體系,包括 122 個最新技術(shù)(SOTA)MM-LLMs,每個都具有特定的公式,并在第 4 節(jié)總結(jié)了它們的發(fā)展趨勢。在第 5 節(jié),我們?nèi)鎸彶榱酥髁骰鶞?zhǔn)測試中主要 MM-LLMs 的性能,并提煉了增強 MM-LLMs 效力的關(guān)鍵訓(xùn)練配方。在第 6 節(jié),我們提供了 MM-LLMs 研究的有前途的方向。

此外,我們建立了一個網(wǎng)站 https://mm-llms.github.io,以追蹤 MM-LLMs 的最新進(jìn)展,并促進(jìn)眾包更新。最后,我們在第 7 節(jié)總結(jié)了整篇文章,并在附錄 A 中討論了有關(guān) MM-LLMs 的相關(guān)綜述。我們希望我們的調(diào)查能幫助研究人員深入了解這一領(lǐng)域,并激發(fā)設(shè)計更有效的 MM-LLMs 的靈感。

調(diào)研120+模型!騰訊AI Lab聯(lián)合京都大學(xué)發(fā)布多模態(tài)大語言模型最新綜述-AI.x社區(qū)

模型架構(gòu)

在本節(jié)中,我們提供了一份詳細(xì)的概述,涵蓋了構(gòu)成一般模型架構(gòu)的五個組件,以及每個組件的實現(xiàn)選擇,如圖 2 所示。包括模態(tài)編碼器,負(fù)責(zé)對來自各種模態(tài)的輸入進(jìn)行編碼;輸入映射器,將其他模態(tài)的編碼特征與文本特征空間對齊;LLM 骨干,執(zhí)行語義理解和推理;輸出映射器,將生成模型與 LLM 的輸出指令對齊;以及模態(tài)生成器,負(fù)責(zé)在特定模態(tài)生成輸出。

強調(diào)多模態(tài)理解的 MM-LLMs 僅包括前三個組件。

在訓(xùn)練過程中,模態(tài)編碼器、LLM 骨干和模態(tài)生成器通常保持凍結(jié)狀態(tài)。主要的優(yōu)化重點在于輸入和輸出映射器。鑒于映射器是輕量級組件,與總參數(shù)數(shù)量相比, MM-LLMs 中可訓(xùn)練參數(shù)的比例明顯較小(通常約為 $2$\%)。總參數(shù)數(shù)量取決于在 MM-LLMs 中使用的核心 LLM 的規(guī)模。因此,MM-LLMs 可以被高效地訓(xùn)練,以賦予各種多模態(tài)任務(wù)能力。

調(diào)研120+模型!騰訊AI Lab聯(lián)合京都大學(xué)發(fā)布多模態(tài)大語言模型最新綜述-AI.x社區(qū)

調(diào)研120+模型!騰訊AI Lab聯(lián)合京都大學(xué)發(fā)布多模態(tài)大語言模型最新綜述-AI.x社區(qū)

訓(xùn)練Pipeline

MM-LLMs 的訓(xùn)練流程可以劃分為兩個主要階段:MM PT 和 MM IT。

3.1 MM PT

在 PT 階段,通常利用 X-Text 數(shù)據(jù)集,通過優(yōu)化預(yù)定義的目標(biāo)來訓(xùn)練輸入和輸出映射器,以實現(xiàn)各種模態(tài)之間的對齊。X-Text 數(shù)據(jù)集包括圖像-文本、視頻-文本和音頻-文本。X-Text 數(shù)據(jù)集的詳細(xì)信息見表 3。

3.2 MM IT

MM IT 是一種通過使用指令格式的數(shù)據(jù)集對預(yù)訓(xùn)練的 MM-LLMs 進(jìn)行微調(diào)的方法。通過這個過程,MM-LLMs 可以通過遵循新的指令來泛化到未見過的任務(wù),從而提高 zero-shot 性能。

MM IT 包括監(jiān)督微調(diào)(SFT)和根據(jù)人類反饋進(jìn)行強化學(xué)習(xí)(RLHF),旨在與人類意圖保持一致,并增強 MM-LLMs 的交互能力。SFT 將部分 PT 階段的數(shù)據(jù)轉(zhuǎn)換為一個受指令影響的格式。然后,使用相同的優(yōu)化目標(biāo)對預(yù)訓(xùn)練的 MM-LLMs 進(jìn)行微調(diào)。SFT 數(shù)據(jù)集可以構(gòu)造為單輪 QA 或多輪對話。

在 SFT 之后,RLHF 涉及對模型進(jìn)行進(jìn)一步微調(diào),依賴于有關(guān) MM-LLMs 響應(yīng)的反饋(例如,手動或自動標(biāo)記的自然語言反饋(NLF)。該過程使用強化學(xué)習(xí)算法有效地集成了不可微分的 NLF。模型被訓(xùn)練以在 NLF 的條件下生成相應(yīng)的響應(yīng)。SFT 和 RLHF 數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)見表 4。

現(xiàn)有 MM-LLMs 在 MM PT 和 MM IT 階段使用的數(shù)據(jù)集比較多樣,但它們都是表 3 和 4 中數(shù)據(jù)集的子集。

調(diào)研120+模型!騰訊AI Lab聯(lián)合京都大學(xué)發(fā)布多模態(tài)大語言模型最新綜述-AI.x社區(qū)

調(diào)研120+模型!騰訊AI Lab聯(lián)合京都大學(xué)發(fā)布多模態(tài)大語言模型最新綜述-AI.x社區(qū)

調(diào)研120+模型!騰訊AI Lab聯(lián)合京都大學(xué)發(fā)布多模態(tài)大語言模型最新綜述-AI.x社區(qū)

SOTA MM-LLMs

如圖 3 所示,我們從功能和設(shè)計角度對 122 個 SOTA 的 MM-LLMs 進(jìn)行分類。

在設(shè)計劃分中,“使用工具”表示將 LLM 視為黑匣子,并通過推理提供對某些 MM 專家系統(tǒng)的訪問,以執(zhí)行特定的 MM 任務(wù),而“端到端”表示整個模型以端到端的方式進(jìn)行聯(lián)合訓(xùn)練?;谙惹岸x的設(shè)計方案,我們還對其中 43 個 SOTA 的 MM-LLMs 的架構(gòu)和訓(xùn)練數(shù)據(jù)集規(guī)模進(jìn)行了全面比較,如表 1 所示。

調(diào)研120+模型!騰訊AI Lab聯(lián)合京都大學(xué)發(fā)布多模態(tài)大語言模型最新綜述-AI.x社區(qū)

調(diào)研120+模型!騰訊AI Lab聯(lián)合京都大學(xué)發(fā)布多模態(tài)大語言模型最新綜述-AI.x社區(qū)

現(xiàn)有 MM-LLMs 的發(fā)展趨勢:

1. 從專注于多模態(tài)理解到生成特定模態(tài),進(jìn)一步發(fā)展成為任意-任意模態(tài)轉(zhuǎn)換(例如,MiniGPT-4 -> MiniGPT-5 -> NExT-GPT);

2. 從 MM PT 進(jìn)展到 SFT,再到 RLHF,訓(xùn)練流程不斷完善,努力更好地與人類意圖保持一致,并增強模型的對話交互能力(例如,BLIP-2 -> InstructBLIP -> DRESS);

3. 接納多樣化的模態(tài)擴(kuò)展(例如,BLIP-2 -> X-LLM 和 InstructBLIP -> X-InstructBLIP);

4. 加入更高質(zhì)量的訓(xùn)練數(shù)據(jù)集(例如,LLaVA -> LLaVA-1.5);(5)采用更高效的模型架構(gòu),從 BLIP-2 和 DLP 中復(fù)雜的 Q- 和 P-Former 輸入映射模塊過渡到 VILA 中更簡單但同樣有效的線性映射器。

調(diào)研120+模型!騰訊AI Lab聯(lián)合京都大學(xué)發(fā)布多模態(tài)大語言模型最新綜述-AI.x社區(qū)

基準(zhǔn)和性能

為了提供全面的性能比較,我們編制了一張表格,列出了從各種論文中收集到的 18 個主要 Vision-Language (VL) benchmark 上的主要 MM-LLMs,如表 2 所示。

調(diào)研120+模型!騰訊AI Lab聯(lián)合京都大學(xué)發(fā)布多模態(tài)大語言模型最新綜述-AI.x社區(qū)

接下來,我們將提取關(guān)鍵的訓(xùn)練配方,以提升 MM-LLMs 的效果,從 SOTA 模型中獲取見解。

訓(xùn)練配方:首先,更高的圖像分辨率可以為模型提供更多的視覺細(xì)節(jié),有利于需要細(xì)粒度細(xì)節(jié)的任務(wù)。例如,LLaVA-1.5 和 VILA 使用了 336*336 的分辨率,而 Qwen-VL 和 MiniGPT-v2 則采用了 448*448 的分辨率。然而,更高的分辨率會導(dǎo)致更長的令牌序列,增加額外的訓(xùn)練和推理成本。MiniGPT-v2 通過在嵌入空間中連接 4 個相鄰的視覺令牌來減少長度。

最近,Monkey 提出了一種解決方案,可以增強輸入圖像的分辨率,而無需重新訓(xùn)練高分辨率的視覺編碼器,僅利用低分辨率的視覺編碼器,支持分辨率高達(dá) 1300*800。為了增強對豐富文本圖像、表格和文檔內(nèi)容的理解,DocPedia 引入了一種方法,將視覺編碼器的分辨率增加到 2560*2560,克服了開源 ViT 中低分辨率性能差的局限性。

其次,高質(zhì)量的 SFT 數(shù)據(jù)的融合可以顯著提高特定任務(wù)的性能,正如表 2 所示,LLaVA-1.5 和 VILA-13B 添加了 ShareGPT4V 數(shù)據(jù)。

此外,VILA 揭示了幾個關(guān)鍵發(fā)現(xiàn):1)對 LLM 骨干執(zhí)行 PEFT 促進(jìn)了深度嵌入對齊,對 ICL 至關(guān)重要;2)交錯的圖像-文本數(shù)據(jù)證明是有益的,而僅使用圖像-文本對是次優(yōu)的;3)在 SFT 期間,重新混合純文本指令數(shù)據(jù)(如 unnatural instruction)與圖像-文本數(shù)據(jù)不僅可以解決純文本任務(wù)的退化問題,還可以提高 VL 任務(wù)的準(zhǔn)確性。

調(diào)研120+模型!騰訊AI Lab聯(lián)合京都大學(xué)發(fā)布多模態(tài)大語言模型最新綜述-AI.x社區(qū)

未來方向

更強大的模型:我們可以從以下四個關(guān)鍵方面增強 MM-LLMs 的實力:

1. 擴(kuò)展模態(tài):當(dāng)前的 MM-LLMs 主要支持以下模態(tài):圖像、視頻、音頻、3D 和文本。然而,現(xiàn)實世界涉及到更廣泛的模態(tài)。擴(kuò)展 MM-LLMs 以適應(yīng)額外的模態(tài)(例如,網(wǎng)頁、熱圖和圖表)將增加模型的通用性,使其更具普適性;

2. 多樣化 LLMs:整合各種類型和大小的 LLMs 為從業(yè)者提供了根據(jù)其具體需求選擇最合適的 LLM 的靈活性;

3. 提高 MM IT 數(shù)據(jù)集質(zhì)量:當(dāng)前的 MM IT 數(shù)據(jù)集有很大的改進(jìn)和擴(kuò)展空間。多樣化指令的范圍可以增強 MM-LLMs 在理解和執(zhí)行用戶命令方面的效果。

4. 加強 MM 生成能力:目前大多數(shù)的 MM-LLMs 主要是面向多模態(tài)理解的。雖然一些模型已經(jīng)整合了 MM 生成能力,但生成的響應(yīng)質(zhì)量可能受到 LLDMs 能力的限制。探索檢索式方法與生成過程的整合具有重要的潛力,有可能提高模型的整體性能。

更具挑戰(zhàn)性的基準(zhǔn)測試:現(xiàn)有的基準(zhǔn)測試可能無法充分挑戰(zhàn) MM-LLMs 的能力,因為許多數(shù)據(jù)集在 PT 或 IT 集中已經(jīng)以不同程度出現(xiàn)過。這意味著模型在訓(xùn)練過程中可能已經(jīng)學(xué)習(xí)了這些任務(wù)。此外,當(dāng)前的基準(zhǔn)測試主要集中在 VL 子領(lǐng)域。因此,對于 MM-LLMs 的發(fā)展來說,建立一個更具挑戰(zhàn)性、規(guī)模更大的基準(zhǔn)測試,包括更多的模態(tài),并使用統(tǒng)一的評估標(biāo)準(zhǔn)至關(guān)重要。

例如,GOAT-Bench 用于評估各種 MM-LLMs 在識別和回應(yīng)表現(xiàn)在表情中的社會虐待微妙方面的能力。MathVista 在視覺環(huán)境中評估 MM-LLMs 的數(shù)學(xué)推理能力。

此外,MMMUS 和 CMMMU 分別推出了面向?qū)<胰斯ねㄓ弥悄艿挠⑽暮椭形陌姹镜拇笠?guī)模多學(xué)科 MM 理解和推理基準(zhǔn)測試。而 fan et al. 還通過多面板 VQA 挑戰(zhàn)了 MM-LLMs。BenchLMM 對 MM-LLMs 的跨樣式視覺能力進(jìn)行了基準(zhǔn)測試。此外,liu et al. 還對 MM-LLMs 的光學(xué)字符識別能力進(jìn)行了深入研究。

移動/輕量級部署:在資源受限的平臺上部署 MM-LLMs 并同時實現(xiàn)最佳性能,比如低功耗移動設(shè)備和物聯(lián)網(wǎng)設(shè)備,輕量級實現(xiàn)至關(guān)重要。在這方面的一個顯著進(jìn)展是 MobileVLM。這種方法戰(zhàn)略性地對 LLaMA 進(jìn)行了降級處理,使其能夠輕松地進(jìn)行現(xiàn)成的部署。MobileVLM 進(jìn)一步引入了一個輕量級的降采樣投影器,由不到 2000 萬個參數(shù)組成,有助于提高計算速度。

最近,有許多類似的研究致力于輕量化 MM-LLMs,在性能相當(dāng)或幾乎沒有損失的情況下,實現(xiàn)了高效的計算和推理,包括 TinyGPT-4、Vary-toy、Mobile-Agent、MoE-LLaVA 和 MobileVLM V2。然而,這一途徑需要進(jìn)一步探索以實現(xiàn)進(jìn)一步的發(fā)展。

具身智能:具身智能旨在通過有效理解環(huán)境、識別相關(guān)對象、評估它們的空間關(guān)系和制定全面的任務(wù)計劃,復(fù)制類似于人類感知和與周圍環(huán)境互動的過程。具身智能任務(wù),如具身規(guī)劃、具身視覺問答和具身控制,使機器人能夠通過利用實時觀察自主地執(zhí)行擴(kuò)展計劃。

這個領(lǐng)域的一些典型工作包括 PaLM-E 和 EmbodiedGPT。PaLM-E 通過訓(xùn)練一個 MM-LLM 引入了一個多具身智能體。除了作為一個具身決策者的功能之外,PaLM-E 還展示了處理通用 VL 任務(wù)的能力。EmbodiedGPT 引入了一種經(jīng)濟(jì)高效的方法,其特點是采用了一種 CoT 方法,增強了具身智能體與現(xiàn)實世界的互動能力,并建立了一個將高層規(guī)劃與低層控制相連接的閉環(huán)。

雖然基于 MM-LLM 的具身智能在與機器人集成方面取得了進(jìn)展,但仍需要進(jìn)一步探索以增強機器人的自主性。

連續(xù)學(xué)習(xí):由于龐大規(guī)模的訓(xùn)練成本,MM-LLMs 不易頻繁進(jìn)行重新訓(xùn)練。然而,為了賦予 MM-LLMs 新技能并使其與快速發(fā)展的人類知識保持同步,更新是必要的。因此,需要進(jìn)行連續(xù)學(xué)習(xí),使模型足夠靈活,能夠有效地并連續(xù)地利用新出現(xiàn)的數(shù)據(jù),同時避免重新訓(xùn)練 MM-LLMs 所帶來的巨大成本。

MM-LLMs 的連續(xù)學(xué)習(xí)可以分為兩個階段:連續(xù) PT 和連續(xù) IT。最近,提出了一個連續(xù)MM IT 基準(zhǔn)測試,用于連續(xù)對 MM-LLMs 進(jìn)行微調(diào)以適應(yīng)新的 MM 任務(wù),同時在原始 MM IT 階段學(xué)習(xí)的任務(wù)上保持優(yōu)異性能。這引入了兩個主要挑戰(zhàn):1)災(zāi)難性遺忘,即當(dāng)學(xué)習(xí)新任務(wù)時,模型會遺忘先前的知識,以及 2)負(fù)向前向遷移,表示當(dāng)學(xué)習(xí)新任務(wù)時,未見任務(wù)的性能會下降。

減輕幻覺:幻覺是指在沒有視覺線索的情況下生成不存在物體的文本描述,表現(xiàn)在各種類別中,比如描述中的錯誤和不準(zhǔn)確性。這些幻覺的起源是多方面的,包括訓(xùn)練數(shù)據(jù)中的偏見和注釋錯誤。

此外,Skip\n 強調(diào)了與段落分隔符相關(guān)的語義漂移偏見,當(dāng)故意插入時可能導(dǎo)致幻覺。目前減輕這些幻覺的方法包括利用自我反饋作為視覺線索。然而,挑戰(zhàn)仍然存在,需要在準(zhǔn)確和幻覺輸出之間進(jìn)行微妙的辨別,以及在訓(xùn)練方法方面的進(jìn)展來增強輸出的可靠性。

調(diào)研120+模型!騰訊AI Lab聯(lián)合京都大學(xué)發(fā)布多模態(tài)大語言模型最新綜述-AI.x社區(qū)

結(jié)論

本文首先對 MM-LLMs 進(jìn)行了全面的調(diào)研,重點關(guān)注了最近的進(jìn)展。我們首先將模型架構(gòu)分為五個組件,并提供了對一般設(shè)計方案和訓(xùn)練流程的詳細(xì)概述。隨后,我們介紹了各種 SOTA MM-LLMs,每個都因其特定的設(shè)計方案而獨具特色。

我們的調(diào)查還揭示了它們在各種 MM 基準(zhǔn)測試中的能力,并展望了這一快速發(fā)展領(lǐng)域的未來發(fā)展。我們希望本調(diào)查能為研究人員提供洞見,為 MM-LLMs 領(lǐng)域的不斷進(jìn)步做出貢獻(xiàn)。

本文轉(zhuǎn)載自 ??PaperWeekly??,作者:  讓你更懂AI的

原文鏈接:??https://mp.weixin.qq.com/s/ESUVe1aTYFLVJ10S9c1dBg??????

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦