自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="m5j6c"></sub>

<style id="m5j6c"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線(xiàn)教育平臺(tái)

港中文深圳提出ALLaVA-4V：百萬(wàn)級(jí)別的開(kāi)源多模態(tài)GPT-4V數(shù)據(jù)集

發(fā)布于 2024-3-28 13:52

瀏覽

0收藏

最近在大型視覺(jué)-語(yǔ)言模型（LVLMs）上的進(jìn)展使得語(yǔ)言模型能夠處理多模態(tài)輸入，但這需要顯著的計(jì)算資源，特別是在端側(cè)設(shè)備上進(jìn)行部署。本研究旨在通過(guò)采用高質(zhì)量訓(xùn)練數(shù)據(jù)，彌合傳統(tǒng)規(guī)模 LVLMs 與輕量版本之間的性能差距。

為此，我們利用 GPT-4V 構(gòu)建了一個(gè)高質(zhì)量的合成數(shù)據(jù)集，包含（1）具有詳細(xì)文本描述的圖文對(duì)；和（2）復(fù)雜的推理指令和詳細(xì)的答案。利用該訓(xùn)練數(shù)據(jù)，我們訓(xùn)練了一個(gè)輕量級(jí)的多模態(tài)模型 ALLaVA-3B，在同量級(jí)的 LVLMs 的 12 個(gè) benchmark 中取得了有競(jìng)爭(zhēng)力的性能。這項(xiàng)工作突出了采用高質(zhì)量數(shù)據(jù)訓(xùn)練性能優(yōu)異的輕量級(jí) LVLMs 中的可行性。

港中文深圳提出ALLaVA-4V：百萬(wàn)級(jí)別的開(kāi)源多模態(tài)GPT-4V數(shù)據(jù)集-AI.x社區(qū)

論文題目：ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language Model

論文鏈接：https://arxiv.org/abs/2402.11684

數(shù)據(jù)鏈接：https://huggingface.co/datasets/FreedomIntelligence/ALLaVA-4V

代碼鏈接：https://github.com/FreedomIntelligence/ALLaVA

Demo鏈接：https://allava.freedomai.cn/#/

一、研究背景

近幾個(gè)月來(lái)，大型視覺(jué)-語(yǔ)言模型（LVLMs）的發(fā)展迅速。這些模型能夠處理視覺(jué)和文本輸入，類(lèi)似于人類(lèi)在現(xiàn)實(shí)世界場(chǎng)景中處理信息的方式。一個(gè) LVLM 通常由兩個(gè)關(guān)鍵組件組成，即視覺(jué)編碼器和大型語(yǔ)言模型（LLM）。

因此，LVLMs 不僅能夠執(zhí)行傳統(tǒng)任務(wù)，如圖像標(biāo)題生成和圖文檢索，還能夠遵循人類(lèi)的指令執(zhí)行復(fù)雜的視覺(jué)問(wèn)答（VQA）任務(wù)，使它們成為通往人工通用智能（AGI）的一個(gè)里程碑。

盡管 LVLMs 展現(xiàn)出了卓越的能力，它們通常需要大量資源來(lái)進(jìn)行訓(xùn)練和部署。為了使 LVLMs 方便部署，一些工作致力于開(kāi)發(fā)輕量級(jí) LVLMs。盡管這些模型對(duì)于計(jì)算資源較少的用戶(hù)更加友好，但在某種程度上，它們伴隨著性能的損失，這表現(xiàn)在常規(guī)尺寸 LVLMs 與輕量級(jí)版本之間存在性能差距。

遵循“輸入決定輸出”原則，我們的方法從數(shù)據(jù)中心的角度重新評(píng)估多模態(tài)語(yǔ)言模型。在這個(gè)框架內(nèi)，我們專(zhuān)注于兩個(gè)主要策略：“多模態(tài)對(duì)齊”和“視覺(jué)指令微調(diào)”。前者主要致力于幫助語(yǔ)言模型識(shí)別視覺(jué)對(duì)象并增強(qiáng)其視覺(jué)推理能力，后者著重于使 LVLMs 能夠跨更廣泛的指令泛化，特別是涉及視覺(jué)輸入的指令。

現(xiàn)有工作通常使用 caption 數(shù)據(jù)來(lái)在語(yǔ)言模型中對(duì)齊圖像和文本，但這些數(shù)據(jù)集由簡(jiǎn)短和粗粒度的 caption 組成，引入噪聲信號(hào)并阻礙了視覺(jué)-語(yǔ)言對(duì)齊過(guò)程。此外，[1] 發(fā)現(xiàn) COCO 圖像-文本對(duì)的跨模態(tài)關(guān)聯(lián)有限，這對(duì)在 COCO 基礎(chǔ)上合成高質(zhì)量數(shù)據(jù)的有效性提出了質(zhì)疑。因此，我們需要一個(gè)更合理和可擴(kuò)展的方法來(lái)獲得高質(zhì)量的caption數(shù)據(jù)。

與此同時(shí)，對(duì)齊數(shù)據(jù)的規(guī)模，尤其是高質(zhì)量數(shù)據(jù)的規(guī)模，則相對(duì)有限。這在泛化到更廣泛的長(zhǎng)尾視覺(jué)知識(shí)方面存在挑戰(zhàn)。擴(kuò)大對(duì)齊數(shù)據(jù)的數(shù)量，特別是來(lái)自多樣化來(lái)源的數(shù)據(jù)，對(duì)于實(shí)現(xiàn)對(duì)長(zhǎng)尾視覺(jué)知識(shí)的細(xì)致理解至關(guān)重要。

視覺(jué)指令微調(diào)數(shù)據(jù)同樣存在不足。當(dāng)前的視覺(jué)指令調(diào)整數(shù)據(jù)集（如 Vision-FLAN，OCRVQA，TextVQA）更多地關(guān)注于提高基礎(chǔ)能力，而不是更高級(jí)的能力，如復(fù)雜推理。此外，盡管 Vision-FLAN 中的答案是由人工標(biāo)注的，但它們通常由短語(yǔ)或短句組成，且沒(méi)有格式提示。直接學(xué)習(xí)這樣的輸出將阻礙模型性能，因此我們需要改善或重新生成指令的答案。

二、數(shù)據(jù)集生成

1. 圖像來(lái)源

我們?yōu)閿?shù)據(jù)合成選擇了兩個(gè)圖像來(lái)源：Vision-FLAN（簡(jiǎn)稱(chēng) VFLAN）和 LAION。我們選擇前者是因?yàn)檫@些圖像與近 200 個(gè)任務(wù)的多樣化指令相關(guān)聯(lián)。選擇后者是因?yàn)樗鼇?lái)自“野生”互聯(lián)網(wǎng)的自然圖像，且圖像來(lái)源足夠多樣；此外，圖像來(lái)源也與終端用戶(hù)的實(shí)際用途保持一致。

LAION 是一個(gè)流行的視覺(jué)-語(yǔ)言對(duì)齊數(shù)據(jù)集，因?yàn)樗瑥木W(wǎng)頁(yè)爬取的多樣化圖像。為了確保圖像質(zhì)量，我們只下載短邊分辨率至少為 512 的圖像。
Vision-FLAN 是一個(gè)整合了 101 個(gè)開(kāi)源數(shù)據(jù)集中 191 個(gè) VQA 任務(wù)的數(shù)據(jù)集。它包含了對(duì)提高 LVLMs 基礎(chǔ)能力和提升傳統(tǒng) benchmark 表現(xiàn)至關(guān)重要的指令。

2. 使用“先標(biāo)注后問(wèn)答”方式進(jìn)行數(shù)據(jù)合成

為了生成高質(zhì)量的 caption 和視覺(jué)問(wèn)答（VQA），我們提出在單個(gè)會(huì)話(huà)中為一張圖像生成一個(gè) Caption 和一個(gè)問(wèn)答對(duì)，詳見(jiàn)圖 1。具體來(lái)說(shuō)，我們使用圖像提示 GPT-4V，要求它首先生成一個(gè)細(xì)粒度的 caption，然后是一個(gè) VQA 對(duì)。通過(guò)這樣做，整個(gè)數(shù)據(jù)合成過(guò)程包括三個(gè)階段：描述、提問(wèn)和回答。

描述：GPT-4V 需要生成盡可能詳細(xì)的圖片描述，用于視覺(jué)語(yǔ)言的模態(tài)對(duì)齊。
提問(wèn)：GPT-4V 根據(jù)圖片生成復(fù)雜推理問(wèn)題。
回答：GPT-4V 根據(jù)圖片、描述和問(wèn)題生成詳細(xì)的答案。

為了避免潛在的倫理問(wèn)題，我們 prompt 里提示 GPT-4V 拒絕為相關(guān)圖片生成圖片描述，同時(shí)避免生成帶有偏見(jiàn)的答案。

在 VQA 場(chǎng)景中，加入額外的圖片描述是有益的。補(bǔ)充的圖片描述可以被視為額外的上下文，有助于提高答案質(zhì)量并減少幻覺(jué)現(xiàn)象。通過(guò)利用額外的信息，模型獲得對(duì)視覺(jué)和文本組件的全面理解，從而改善其提供準(zhǔn)確和情境相關(guān)回應(yīng)的能力。此外，由于提供了更多的上下文，它可能減輕幻覺(jué)問(wèn)題。

港中文深圳提出ALLaVA-4V：百萬(wàn)級(jí)別的開(kāi)源多模態(tài)GPT-4V數(shù)據(jù)集-AI.x社區(qū)

3. 數(shù)據(jù)集卡片

為了緩解模型的文本災(zāi)難性遺忘問(wèn)題，我們也使用 GPT-4-Turbo 重新生成了 WizardLM 指令數(shù)據(jù)集 [2] 的回答部分。

我們將 ALLaVA-4V 數(shù)據(jù)集的名稱(chēng)、來(lái)源及樣本量匯總在表 1 中。圖片數(shù)量達(dá) 700K，總樣本量（包括文本數(shù)據(jù)）達(dá) 1.5M，是目前最大的用于 LVLM 訓(xùn)練的開(kāi)源高質(zhì)量 GPT-4V 數(shù)據(jù)集。

港中文深圳提出ALLaVA-4V：百萬(wàn)級(jí)別的開(kāi)源多模態(tài)GPT-4V數(shù)據(jù)集-AI.x社區(qū)

4. 數(shù)據(jù)集樣例

港中文深圳提出ALLaVA-4V：百萬(wàn)級(jí)別的開(kāi)源多模態(tài)GPT-4V數(shù)據(jù)集-AI.x社區(qū)

三、實(shí)驗(yàn)

我們以 Phi-2 作為語(yǔ)言模型基座，采用兩階段訓(xùn)練。如表 3 所示，預(yù)訓(xùn)練階段，我們選用 Evol-Instruct-GPT4-Turbo-143K 和 OpenChat [3] 組成純文本數(shù)據(jù)，ALLaVA-Caption-4V 和 ShareGPT4V [4] 組成對(duì)齊數(shù)據(jù)；視覺(jué)語(yǔ)言指令微調(diào)階段，除了文本數(shù)據(jù)，我們用 ALLaVA-Instruct-4V 和 llava_instruct_657K [5] 組成指令數(shù)據(jù)。

我們推出兩個(gè)模型：ALLaVA-3B 和 ALLaVA-3B-Longer。兩個(gè)模型的區(qū)別僅在第二階段，后者比前者多訓(xùn)練一個(gè) epoch。

港中文深圳提出ALLaVA-4V：百萬(wàn)級(jí)別的開(kāi)源多模態(tài)GPT-4V數(shù)據(jù)集-AI.x社區(qū)

1. Benchmark結(jié)果

我們的模型展示了卓越的語(yǔ)言能力，在 Vicuna-80 上獲得了 52.5% 的勝率，超過(guò)了 LLaMA2-7B-Chat 提供的 anchor 答案。這個(gè)結(jié)果也大幅超過(guò)了 LLaVA-v1.5-13B，這表明我們文本數(shù)據(jù)的高質(zhì)量以及從 base 模型構(gòu)建 LVLM 的有效性。

對(duì)于多模態(tài)能力，我們根據(jù)答案的形式將我們的 benchmark 分為多項(xiàng)選擇或簡(jiǎn)答（8 個(gè) benchmark）和自由形式生成（3 個(gè) benchmark）。

對(duì)于多項(xiàng)選擇或簡(jiǎn)答 benchmark，ALLaVA-3B 在 MMB、SEEDBench、MM-Vet、MME 和 GQA 上大幅超過(guò)了同規(guī)模的 LVLMs。ALLaVA-3B-Longer 甚至在 MM-Vet、MME 和 EMT 上超過(guò)了 LLaVA-v1.5-13B，盡管其參數(shù)只有后者的 25%。

對(duì)于自由形式生成 benchmark，ALLaVA-3B-Longer 在用于探測(cè)復(fù)雜推理能力 MLLM-Bench上實(shí)現(xiàn)了 8.8% 的 SOTA 勝率。它在 TouchStone 和 LLaVA（In-the-Wild）上的表現(xiàn)也與 LLaVA-v1.5-13B 相當(dāng)。

港中文深圳提出ALLaVA-4V：百萬(wàn)級(jí)別的開(kāi)源多模態(tài)GPT-4V數(shù)據(jù)集-AI.x社區(qū)

2. 定性結(jié)果展示

我們提供了兩個(gè)示例，并比較了 ALLaVA-3B 與其他模型（包括 GPT-4V、LLaVA-v1.5-13B 和 LLaVA-v1.6-13B）的生成結(jié)果。

示例 1 測(cè)試了模型對(duì)幽默理解的能力。這四個(gè)模型都能夠?qū)D片進(jìn)行的描述，捕捉到松鼠和鳥(niǎo)的姿態(tài)并識(shí)別它們各自的角色并分析幽默的原因。

示例2測(cè)試了檢測(cè)情緒的能力。ALLaVA-3B、GPT-4V 和 LLaVA-v1.6-34B 對(duì)女性的面部表情及其潛在情緒的判斷是一致的。然而，LLaVA-v1.5-13B 只給出了粗略的描述，并聲稱(chēng)她正在看向相機(jī)，但實(shí)際上并非如此。

在這兩個(gè)示例中，僅有 3B 參數(shù)的 ALLaVA 能夠與更大模型達(dá)到相似的性能，展示了它從高質(zhì)量訓(xùn)練集中獲得的卓越推理能力。

港中文深圳提出ALLaVA-4V：百萬(wàn)級(jí)別的開(kāi)源多模態(tài)GPT-4V數(shù)據(jù)集-AI.x社區(qū)

四、總結(jié)

在這項(xiàng)工作中，我們提出了一個(gè)框架，同時(shí)生成高質(zhì)量的 caption、視覺(jué)指令和答案。這是一種用于獲取更多的 LVLM 訓(xùn)練數(shù)據(jù)的可擴(kuò)展的方法。使用我們合成的數(shù)據(jù)集，我們訓(xùn)練了我們的模型 ALLaVA-3B，該模型在 3B 規(guī)模 LVLMs 的 12 個(gè) benchmark 中取得了有競(jìng)爭(zhēng)力的性能，并且在一些 benchmark 中與更大的 SOTA 模型如 LLaVA-v1.5-13B 的性能相當(dāng)。

我們的數(shù)據(jù)可以顯著縮小輕量級(jí) LVLMs 與常規(guī)尺寸 LVLMs 之間的性能差距。我們向研究社區(qū)開(kāi)源我們的模型和數(shù)據(jù)，以更好地推動(dòng)這一領(lǐng)域的發(fā)展。

本文轉(zhuǎn)載自PaperWeekly

原文鏈接：??https://mp.weixin.qq.com/s/otxd8rEVy2kw2mHzb0JFBA??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

我們距離GPT-4V真的很近了嗎？

zhangyannni ? 2954瀏覽 ? 0回復(fù)
港中文提出CLongEval中文基準(zhǔn)測(cè)試集，準(zhǔn)確評(píng)估大模型長(zhǎng)上下文能力

zhangyannni ? 5043瀏覽 ? 0回復(fù)
GPT4V可有效識(shí)別DeepFake圖像！

pangguiyu ? 4338瀏覽 ? 0回復(fù)
揭秘AI幻覺(jué)：GPT-4V存在視覺(jué)編碼漏洞，清華聯(lián)合NUS提出LLaVA-UHD

輕薄滴假象 ? 2246瀏覽 ? 0回復(fù)
超越GPT-4V，蘋(píng)果多模態(tài)大模型上新！

duhorse ? 2402瀏覽 ? 0回復(fù)
8B文字多模態(tài)大模型指標(biāo)逼近GPT4V，字節(jié)、華師、華科聯(lián)合提出TextSquare

輕薄滴假象 ? 2555瀏覽 ? 0回復(fù)
CVPR‘24：與任務(wù)無(wú)關(guān)的多模態(tài)數(shù)據(jù)也能提升Transformer性能｜港中文&騰訊

Crystalcxt ? 2415瀏覽 ? 0回復(fù)
14 項(xiàng)任務(wù)測(cè)下來(lái)，GPT4V、Gemini等多模態(tài)大模型竟都沒(méi)什么視覺(jué)感知能力？

輕薄滴假象 ? 2512瀏覽 ? 0回復(fù)
被作者刪庫(kù)的Llama 3-V原文再現(xiàn)！效果匹敵GPT4-V，區(qū)區(qū)不到500 美元，如何做到的

51CTO技術(shù)棧 ? 2552瀏覽 ? 0回復(fù)
多模態(tài)模型學(xué)會(huì)打撲克：表現(xiàn)超越GPT-4v，全新強(qiáng)化學(xué)習(xí)框架是關(guān)鍵

Crystalcxt ? 2810瀏覽 ? 0回復(fù)
Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率

大語(yǔ)言模型論文跟蹤 ? 4630瀏覽 ? 0回復(fù)
DeepSeek Coder V2開(kāi)源發(fā)布，首超GPT4-Turbo代碼能力

Aceryt ? 7066瀏覽 ? 0回復(fù)
ShareGPT4V作者團(tuán)隊(duì)又一力作！百萬(wàn)高質(zhì)量視頻-字幕數(shù)據(jù)助力社區(qū)提升多模態(tài)大模型視頻理解及生成能力

輕薄滴假象 ? 2536瀏覽 ? 0回復(fù)
全面對(duì)標(biāo)GPT-4 Turbo，訊飛星火V4.0 重磅發(fā)布！

51CTO技術(shù)棧 ? 2328瀏覽 ? 0回復(fù)
超越文本，GPT-4在虹膜生物識(shí)別的創(chuàng)新應(yīng)用

Aceryt ? 2159瀏覽 ? 0回復(fù)
GPT-4和GPT-4V能否像人類(lèi)一樣進(jìn)行抽象推理

lintoms ? 1771瀏覽 ? 0回復(fù)
LLM合集：港大利用GPT-4o生成QA對(duì)，打造大規(guī)模多模態(tài)視頻思維鏈（COT）數(shù)據(jù)集

AIPaperDaily ? 2787瀏覽 ? 0回復(fù)
南大&騰訊優(yōu)圖發(fā)布GPT-4o級(jí)別的實(shí)時(shí)視覺(jué)語(yǔ)音交互——VITA1.5

angel ? 2190瀏覽 ? 0回復(fù)
9B參數(shù)吊打GPT-4V！NVIDIA開(kāi)源新模型（Eagle 2），竟靠“透明數(shù)據(jù)”逆襲？

Halo咯咯 ? 1759瀏覽 ? 0回復(fù)

這個(gè)用戶(hù)很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

WSDM 2024 | 系統(tǒng)探究適配器微調(diào)對(duì)于可遷移推薦的影響 2024-03-28 14:27:29發(fā)布
用短輸入模擬長(zhǎng)樣本，高效拓展LLM上下文窗口，北大聯(lián)合MSRA提出PoSE 2024-03-28 14:15:43發(fā)布

熱門(mén)推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實(shí)戰(zhàn)教程 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

2025年最值得關(guān)注的十大多模態(tài)大語(yǔ)言模型！ 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復(fù)

上一篇：端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B！美團(tuán)、浙大等提出MobileVLM V2：更快、更強(qiáng)的端側(cè)視覺(jué)語(yǔ)言模型

下一篇：用短輸入模擬長(zhǎng)樣本，高效拓展LLM上下文窗口，北大聯(lián)合MSRA提出PoSE

社區(qū)精華內(nèi)容

目錄