自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="njts0"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

字節(jié)豆包、武大提出 CAL：通過(guò)視覺(jué)相關(guān)的 token 增強(qiáng)多模態(tài)對(duì)齊效果

輕薄滴假象

發(fā)布于 2024-6-17 12:43

瀏覽

0收藏

當(dāng)前主流的視覺(jué)語(yǔ)言模型（VLM）主要基于大語(yǔ)言模型（LLM）進(jìn)一步微調(diào)。因此需要通過(guò)各種方式將圖像映射到 LLM 的嵌入空間，然后使用自回歸方式根據(jù)圖像 token 預(yù)測(cè)答案。

在這個(gè)過(guò)程中，模態(tài)的對(duì)齊是通過(guò)文本 token 隱式實(shí)現(xiàn)的，如何做好這一步的對(duì)齊非常關(guān)鍵。

針對(duì)這一問(wèn)題，武漢大學(xué)、字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)和中國(guó)科學(xué)院大學(xué)的研究人員提出了一種基于對(duì)比學(xué)習(xí)的文本 token 篩選方法（CAL），從文本中篩選出與圖像高度相關(guān)的 token，并加大其損失函數(shù)權(quán)重，從而實(shí)現(xiàn)更精準(zhǔn)的多模態(tài)對(duì)齊。

字節(jié)豆包、武大提出 CAL：通過(guò)視覺(jué)相關(guān)的 token 增強(qiáng)多模態(tài)對(duì)齊效果-AI.x社區(qū)

論文鏈接：???https://arxiv.org/pdf/2405.17871???
代碼鏈接：???https://github.com/foundation-multimodal-models/CAL???

CAL 有以下幾個(gè)亮點(diǎn)：

可以直接嵌套到訓(xùn)練過(guò)程，無(wú)需額外預(yù)訓(xùn)練階段。
在 OCR 和 Caption benchmarks 上獲得了明顯的提升，從可視化中可以發(fā)現(xiàn) CAL 使得圖片模態(tài)對(duì)齊效果更好。
CAL 使得訓(xùn)練過(guò)程對(duì)噪聲數(shù)據(jù)抵抗能力更強(qiáng)。

研究動(dòng)機(jī)

目前視覺(jué)語(yǔ)言模型依賴于圖片模態(tài)的對(duì)齊，如何做好對(duì)齊非常關(guān)鍵。目前主流的方法是通過(guò)文本自回歸的方式進(jìn)行隱式對(duì)齊，但是每個(gè)文本 token 對(duì)圖像對(duì)齊的貢獻(xiàn)是不一致的，對(duì)這些文本 token 進(jìn)行區(qū)分是非常有必要的。

CAL 提出，在現(xiàn)有的視覺(jué)語(yǔ)言模型（VLM）訓(xùn)練數(shù)據(jù)中，文本 token 可以被分為三類：

與圖片高度相關(guān)的文本：如實(shí)體（例如人、動(dòng)物、物體）、數(shù)量、顏色、文字等。這些 token 與圖像信息直接對(duì)應(yīng)，對(duì)多模態(tài)對(duì)齊至關(guān)重要。
與圖片低相關(guān)度的文本：如承接詞或可以通過(guò)前文推斷出的內(nèi)容。這些 token 實(shí)際上主要是在訓(xùn)練 VLM 的純文本能力。
與圖片內(nèi)容相悖的文本：這些 token 與圖像信息不一致，甚至可能提供誤導(dǎo)信息，對(duì)多模態(tài)對(duì)齊過(guò)程產(chǎn)生負(fù)面影響。

字節(jié)豆包、武大提出 CAL：通過(guò)視覺(jué)相關(guān)的 token 增強(qiáng)多模態(tài)對(duì)齊效果-AI.x社區(qū)

圖一：綠色標(biāo)記為與圖片高度相關(guān) token，紅色為內(nèi)容相悖，無(wú)色為中性 token

在訓(xùn)練過(guò)程中，后兩類 token 整體而言實(shí)際上占據(jù)了較大比例，但由于它們并不強(qiáng)依賴于圖片，對(duì)圖片的模態(tài)對(duì)齊作用不大。因此，為了實(shí)現(xiàn)更好的對(duì)齊，需要加大第一類文本 token，即與圖片高度相關(guān)部分 token 的權(quán)重。如何找出這一部分 token 成為了解決這個(gè)問(wèn)題的關(guān)鍵所在。

方法

找出與圖片高度相關(guān) token 這個(gè)問(wèn)題可以通過(guò) condition contrastive 的方式來(lái)解決。

對(duì)于訓(xùn)練數(shù)據(jù)中的每個(gè)圖文對(duì)，在沒(méi)有圖片輸入的情況下，每個(gè)文本 token 上的 logit 代表著 LLM 基于上下文情況和已有知識(shí)對(duì)這種情況出現(xiàn)的估計(jì)值。
如果在前面添加圖片輸入，相當(dāng)于提供額外的上下文信息，這種情況下每個(gè) text token 的 logit 會(huì)基于新的情況進(jìn)行調(diào)整。這兩種情況的 logit 變化量代表著圖片這個(gè)新的條件對(duì)每個(gè)文本 token 的影響大小。

具體來(lái)說(shuō)，在訓(xùn)練過(guò)程中，CAL 將圖文序列和單獨(dú)的文本序列分別輸入到大語(yǔ)言模型（LLM）中，得到每個(gè)文本 token 的 logit。通過(guò)計(jì)算這兩種情況下的 logit 差值，可以衡量圖片對(duì)每個(gè) token 的影響程度。logit 差值越大，說(shuō)明圖片對(duì)該 token 的影響越大，因此該 token 與圖像越相關(guān)。下圖展示了文本 token 的 logit diff 和 CAL 方法的流程圖。

字節(jié)豆包、武大提出 CAL：通過(guò)視覺(jué)相關(guān)的 token 增強(qiáng)多模態(tài)對(duì)齊效果-AI.x社區(qū)

圖二：左圖是對(duì)兩種情形下 token logit diff 的可視化，右圖是 CAL 方法流程的可視化

實(shí)驗(yàn)

CAL 在 LLaVA 和 MGM 兩個(gè)主流模型上進(jìn)行了實(shí)驗(yàn)驗(yàn)證，在不同規(guī)模的模型下均實(shí)現(xiàn)了性能提升。

包含以下四個(gè)部分的驗(yàn)證：

（1）使用 CAL 的模型在各項(xiàng)基準(zhǔn)測(cè)試指標(biāo)上表現(xiàn)更佳。

字節(jié)豆包、武大提出 CAL：通過(guò)視覺(jué)相關(guān)的 token 增強(qiáng)多模態(tài)對(duì)齊效果-AI.x社區(qū)

字節(jié)豆包、武大提出 CAL：通過(guò)視覺(jué)相關(guān)的 token 增強(qiáng)多模態(tài)對(duì)齊效果-AI.x社區(qū)

（2）通過(guò)按比例隨機(jī)交換兩個(gè)圖文對(duì)中的文本來(lái)制造一批噪聲數(shù)據(jù)（圖文錯(cuò)配），并用于模型訓(xùn)練，CAL 使得訓(xùn)練過(guò)程具有更強(qiáng)的數(shù)據(jù)抗噪性能。

字節(jié)豆包、武大提出 CAL：通過(guò)視覺(jué)相關(guān)的 token 增強(qiáng)多模態(tài)對(duì)齊效果-AI.x社區(qū)

圖三：在不同強(qiáng)度訓(xùn)練噪聲情況下，CAL 與基線的性能表現(xiàn)

（3）對(duì) QA case 中的答案部分計(jì)算其與圖片 token 的注意力分?jǐn)?shù)分布，并將其繪制在原圖上，CAL 訓(xùn)練的模型擁有更清晰的注意力分布圖。

字節(jié)豆包、武大提出 CAL：通過(guò)視覺(jué)相關(guān)的 token 增強(qiáng)多模態(tài)對(duì)齊效果-AI.x社區(qū)

圖四：基線與 CAL 的 attention map 可視化，每對(duì)中的右邊為 CAL

（4）將每個(gè)圖片 token 映射為它最相似 LLM 詞表中的文本 token，將其繪制到原圖上，CAL 訓(xùn)練的模型映射內(nèi)容更接近圖片內(nèi)容。

字節(jié)豆包、武大提出 CAL：通過(guò)視覺(jué)相關(guān)的 token 增強(qiáng)多模態(tài)對(duì)齊效果-AI.x社區(qū)

圖五：將 image token 映射為最相似詞表 token，并對(duì)應(yīng)到原圖上

團(tuán)隊(duì)介紹：

字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)成立于 2023 年，致力于開(kāi)發(fā)業(yè)界最先進(jìn)的 AI 大模型技術(shù)，成為世界一流的研究團(tuán)隊(duì)，為科技和社會(huì)發(fā)展作出貢獻(xiàn)。

本文轉(zhuǎn)自機(jī)器之心，作者：機(jī)器之心

原文鏈接:??https://mp.weixin.qq.com/s/CkfSefskLPJwT8-JnBSWcg??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

場(chǎng)景圖知識(shí)增強(qiáng)多模態(tài)結(jié)構(gòu)化表示能力

mb5f8eba9bdb0af ? 2853瀏覽 ? 0回復(fù)
CVPR 2024 | 通過(guò)細(xì)粒度人類反饋對(duì)齊數(shù)據(jù)，提高多模態(tài)大模型可信度

zhangyannni ? 3626瀏覽 ? 0回復(fù)
GPT超越擴(kuò)散、視覺(jué)生成Scaling Law時(shí)刻！北大&字節(jié)提出VAR范式

輕薄滴假象 ? 2501瀏覽 ? 0回復(fù)
通過(guò)檢索增強(qiáng)生成(RAG) 增強(qiáng)LLM的實(shí)戰(zhàn)演練

51CTO內(nèi)容精選 ? 3342瀏覽 ? 0回復(fù)
Flames 安全評(píng)測(cè)基準(zhǔn)：大語(yǔ)言模型的對(duì)齊效果如何？

戀戀青鳥(niǎo) ? 3622瀏覽 ? 0回復(fù)
字節(jié)豆包全新圖像Tokenizer：生成圖像最低只需32個(gè)token，最高提速410倍

輕薄滴假象 ? 3330瀏覽 ? 0回復(fù)
耳朵沒(méi)錯(cuò)，是聲音太真了，字節(jié)豆包語(yǔ)音合成成果Seed-TTS技術(shù)揭秘

輕薄滴假象 ? 3533瀏覽 ? 0回復(fù)
KAM-CoT：知識(shí)增強(qiáng)多模態(tài)鏈?zhǔn)剿季S推理

AIRoobt ? 4413瀏覽 ? 0回復(fù)
卡內(nèi)基梅隆提出VADER：通過(guò)獎(jiǎng)勵(lì)梯度進(jìn)行視頻擴(kuò)散對(duì)齊

angel ? 2260瀏覽 ? 0回復(fù)
中科大提出UniMEL框架 | 革新知識(shí)圖譜，引領(lǐng)多模態(tài)實(shí)體鏈接新紀(jì)元

AI論文解讀 ? 4135瀏覽 ? 0回復(fù)
谷歌通過(guò)數(shù)據(jù)增強(qiáng)、對(duì)比調(diào)優(yōu)，減少多模態(tài)模型幻覺(jué)

Aceryt ? 2637瀏覽 ? 0回復(fù)
華東師大&上大提出TinyVLA：高效視覺(jué)-語(yǔ)言-動(dòng)作模型，遙遙領(lǐng)先

angel ? 2748瀏覽 ? 0回復(fù)
多模態(tài)RAG-VisRAG：基于視覺(jué)的檢索增強(qiáng)生成在多模態(tài)文檔上的應(yīng)用

大模型自然語(yǔ)言處理 ? 2573瀏覽 ? 0回復(fù)
即插即用，無(wú)痛增強(qiáng)模型生成美感！字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定

angel ? 1839瀏覽 ? 0回復(fù)
EVEv2.0，視覺(jué)語(yǔ)言分開(kāi)編碼，多模態(tài)視覺(jué)語(yǔ)言理解；視覺(jué)信息引導(dǎo)與標(biāo)記邏輯增強(qiáng)減少大語(yǔ)言模型幻覺(jué)

AI研究前瞻 ? 2035瀏覽 ? 0回復(fù)
MLLMs人類偏好增強(qiáng)對(duì)齊，自然圖像和數(shù)據(jù)圖表分離；視覺(jué)感知標(biāo)記，模型自主決定感知內(nèi)容

AI研究前瞻 ? 1919瀏覽 ? 0回復(fù)
Mistral發(fā)布最強(qiáng)多模態(tài)文檔理解模型Mistral OCR！可免費(fèi)試用！

51CTO技術(shù)棧 ? 1990瀏覽 ? 0回復(fù)
時(shí)序Pattern提取+語(yǔ)義對(duì)齊增強(qiáng)基于LLM的時(shí)序預(yù)測(cè)效果

海因斯DK ? 1678瀏覽 ? 0回復(fù)
字節(jié)提出一致性視頻生成方法Phantom：通過(guò)跨模態(tài)對(duì)齊生成主題一致的視頻，超多應(yīng)用場(chǎng)景

AIGCStudio ? 429瀏覽 ? 0回復(fù)

輕薄滴假象

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目，還有梁文鋒親自參與，昨晚API大降價(jià) 2025-02-27 12:40:06發(fā)布
全球首個(gè)AI CUDA工程師來(lái)了！將PyTorch原生實(shí)現(xiàn)提速10-100倍 2025-02-21 13:20:31發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實(shí)戰(zhàn)教程 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

2025年最值得關(guān)注的十大多模態(tài)大語(yǔ)言模型！ 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復(fù)

上一篇：上科大、影眸聯(lián)合提出DressCode：從文本生成3D服裝板片

下一篇：答案抽取正確率達(dá)96.88%，xFinder斷了大模型「作弊」的小心思

社區(qū)精華內(nèi)容

目錄