自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

多模態(tài)大模型數(shù)據(jù)構(gòu)造方法原創(chuàng)

發(fā)布于 2024-11-19 12:54

瀏覽

0收藏

?本文將以LLaVA和MiniGPT-4為例介紹多模態(tài)大模型數(shù)據(jù)構(gòu)造的方式。

數(shù)據(jù)質(zhì)量是決定多模態(tài)模型性能的關(guān)鍵因素。高質(zhì)量的數(shù)據(jù)能夠減少噪聲干擾，提高模型的學(xué)習(xí)和預(yù)測準(zhǔn)確性。同時多模態(tài)數(shù)據(jù)的多樣性直接影響模型的泛化能力。一個包含豐富多樣數(shù)據(jù)的集合能夠訓(xùn)練出更加健壯的模型，使其能夠在不同的應(yīng)用場景中表現(xiàn)良好。

本文以LLaVA和MiniGPT-4為例，介紹相關(guān)多模態(tài)數(shù)據(jù)的構(gòu)造過程，給大家在訓(xùn)練或者微調(diào)自己的多模態(tài)模型提供思路。

LLava數(shù)據(jù)構(gòu)造

LLaVA利用圖文對創(chuàng)建了兩個數(shù)據(jù)集：簡單的對話數(shù)據(jù)集(低質(zhì)量，數(shù)據(jù)量大，標(biāo)注成本低)，復(fù)雜的對話數(shù)據(jù)集(高質(zhì)量，數(shù)據(jù)量小，標(biāo)注成本高)。

簡單的圖文對對話數(shù)據(jù)。首先利用已有的圖文對數(shù)據(jù)集（圖片+對應(yīng)描述caption），然后利用ChatGPT生成不同的提問方式（描述該圖），并將caption作為問題的答案：

"Describe the image concisely."
"Provide a brief description of the given image."
"Offer a succinct explanation of the picture presented."
"Summarize the visual content of the image."
"Give a short and clear explanation of the subsequent image."
"Share a concise interpretation of the image provided."
"Present a compact description of the photo’s key features."
"Relay a brief, clear account of the picture shown."
"Render a clear and concise summary of the photo."
"Write a terse but informative summary of the picture."
"Create a compact narrative representing the image presented."

更復(fù)雜的圖文對對話數(shù)據(jù)。為了生成多輪對話數(shù)據(jù)并提高訓(xùn)練數(shù)據(jù)的多樣性。為了使用ChatGPT成帶圖片的多輪對話數(shù)據(jù)，作者使用目標(biāo)檢測將圖片變成ChatGPT可以讀懂的圖片描述，如下圖所示，更定更加精確的坐標(biāo)信息等：

多模態(tài)大模型數(shù)據(jù)構(gòu)造方法-AI.x社區(qū)

MiniGPT-4數(shù)據(jù)構(gòu)造

MiniGPT-4細(xì)致構(gòu)建了一個專為對齊任務(wù)設(shè)計的優(yōu)質(zhì)圖像與文本數(shù)據(jù)集，以微調(diào)MiniGPT-4模型。在第一階段，圖像與文本的初始對齊是通過使用第一個預(yù)訓(xùn)練階段得到的模型來完成的，該模型能夠為給定的圖像生成詳盡的描述。

首先設(shè)置了一個通用的問答對話模版：

###Human: <Img><ImageFeature></Img> Describe this image in detail. Give as many details as possible. Say everything you see. ###Assistant:

其中，<ImageFeature>是指由線性投影層產(chǎn)生的視覺特征。為了識別不完整的句子，檢查生成的句子是否超過80個tokens。如果沒有，會添加一個額外的提示：

###Human: Continue ###Assistant:

此外，由于生成的圖像描述中存在諸多問題，如噪聲較多、錯誤頻出（包括單詞或句子的重復(fù)）以及陳述不連貫等，為了解決這些問題，我們采用了ChatGPT，并借助特定的提示來優(yōu)化和完善這些描述。

修正給定段落中的錯誤。刪除任何重復(fù)的句子、無意義的字符、非英語句子等等。刪除不必要的重復(fù)。重寫任何不完整的句子。直接返回結(jié)果，無需解釋。如果輸入的段落已經(jīng)正確，則直接返回該段落，無需解釋。
Fix the error in the given paragraph. Remove any repeating sentences, meaningless characters, not English sentences, and so on. Remove unnecessary repetition. Rewrite any incomplete sentences. Return directly the results without explanation. Return directly the input paragraph if it is already correct without explanation.

在上述后處理步驟完成后，要對每張圖像的描述進(jìn)行細(xì)致人工審核，以確保其達(dá)到高標(biāo)準(zhǔn)的質(zhì)量。具體而言，逐個檢查生成的圖像描述是否符合預(yù)期的格式，并對ChatGPT未能識別的冗余詞匯或句子進(jìn)行了手動編輯和潤色，即可用來進(jìn)行第一階段的訓(xùn)練。

在第二階段微調(diào)時，使用以下模板中預(yù)定義的提示：

###Human: <Img><ImageFeature></Img> <Instruction> ###Assistant:

在此提示中，<Instruction>表示從預(yù)定義的指令集中隨機采樣的指令，其中包含各種形式的指令，如“詳細(xì)描述此圖像”或“您能為我描述此圖像的內(nèi)容嗎”。

?

文轉(zhuǎn)載自公眾號瓦力算法學(xué)研所，作者：喜歡瓦力的卷卷

原文鏈接：??https://mp.weixin.qq.com/s/8Ev5BY4VxEdHC2m-mT4k2Q??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

多模態(tài)

數(shù)據(jù)構(gòu)造

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

通用的數(shù)據(jù)清洗框架：利用多模態(tài)大模型檢測數(shù)據(jù)集中的惡意樣本

爛漫樹林 ? 6654瀏覽 ? 0回復(fù)
什么是多模態(tài)大模型？為什么需要多模態(tài)大模型？

AI探索時代 ? 4694瀏覽 ? 0回復(fù)
多模態(tài)與偽多模態(tài)大模型

AI探索時代 ? 2276瀏覽 ? 0回復(fù)
多模態(tài)大模型數(shù)據(jù)分析與實踐

zhcs333 ? 3922瀏覽 ? 0回復(fù)
多模態(tài)大模型最全綜述導(dǎo)讀

shizhi02 ? 2745瀏覽 ? 0回復(fù)
多模態(tài)大模型：基礎(chǔ)架構(gòu)

魯班模錘1 ? 2254瀏覽 ? 0回復(fù)
什么是多模態(tài)大模型

AI探索時代 ? 2946瀏覽 ? 0回復(fù)
多模態(tài)大模型Qwen2的深入了解

一起AI技術(shù) ? 3261瀏覽 ? 0回復(fù)
文檔截圖嵌入統(tǒng)一多模態(tài)檢索方法原理

大模型自然語言處理 ? 1985瀏覽 ? 0回復(fù)
OCR-free感知多模態(tài)大模型技術(shù)鏈路及訓(xùn)練數(shù)據(jù)細(xì)節(jié)

大模型自然語言處理 ? 2600瀏覽 ? 0回復(fù)
英偉達(dá)NVLM多模態(tài)大模型細(xì)節(jié)和數(shù)據(jù)集

大模型自然語言處理 ? 2354瀏覽 ? 0回復(fù)
DeepSeek多模態(tài)大模型Janus、Janus-Pro模型架構(gòu)及優(yōu)化方法淺談

大模型自然語言處理 ? 3021瀏覽 ? 0回復(fù)
allenai開源多模態(tài)的文檔智能解析大模型（OLMOCR）方法、效果淺析

大模型自然語言處理 ? 2977瀏覽 ? 0回復(fù)
Phi-4-multimodal：圖、文、音頻統(tǒng)一的多模態(tài)大模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)

大模型自然語言處理 ? 1967瀏覽 ? 0回復(fù)
多模態(tài)大模型Ovis核心技術(shù)點、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)

大模型自然語言處理 ? 1684瀏覽 ? 0回復(fù)
DeepSeek-R1的方法遷移到多模態(tài)大模型-開源Vision-R1實現(xiàn)方法思路

大模型自然語言處理 ? 1852瀏覽 ? 0回復(fù)
Qwen-VL系列多模態(tài)大模型技術(shù)演進(jìn)-模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)

大模型自然語言處理 ? 3333瀏覽 ? 0回復(fù)
融合語言模型的多模態(tài)大模型研究

zhcs333 ? 1708瀏覽 ? 0回復(fù)
Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析

大模型自然語言處理 ? 1207瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

AI Infra—如何從 LLM training 轉(zhuǎn) Inference 6天前發(fā)布
智駕中的VLA方案總結(jié) 6天前發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實戰(zhàn)教程 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

2025年最值得關(guān)注的十大多模態(tài)大語言模型！ 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復(fù)

上一篇：大模型面經(jīng)—如何評估顯卡利用率及顯卡運用優(yōu)化方法

下一篇：如何全面評估多模態(tài)大模型能力？MLLM評測任務(wù)與指標(biāo)總結(jié)

社區(qū)精華內(nèi)容

目錄