自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

字節(jié)豆包、武大提出 CAL:通過(guò)視覺(jué)相關(guān)的 token 增強(qiáng)多模態(tài)對(duì)齊效果

發(fā)布于 2024-6-17 12:43
瀏覽
0收藏

當(dāng)前主流的視覺(jué)語(yǔ)言模型(VLM)主要基于大語(yǔ)言模型(LLM)進(jìn)一步微調(diào)。因此需要通過(guò)各種方式將圖像映射到 LLM 的嵌入空間,然后使用自回歸方式根據(jù)圖像 token 預(yù)測(cè)答案。


在這個(gè)過(guò)程中,模態(tài)的對(duì)齊是通過(guò)文本 token 隱式實(shí)現(xiàn)的,如何做好這一步的對(duì)齊非常關(guān)鍵。


針對(duì)這一問(wèn)題,武漢大學(xué)、字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)和中國(guó)科學(xué)院大學(xué)的研究人員提出了一種基于對(duì)比學(xué)習(xí)的文本 token 篩選方法(CAL),從文本中篩選出與圖像高度相關(guān)的 token,并加大其損失函數(shù)權(quán)重,從而實(shí)現(xiàn)更精準(zhǔn)的多模態(tài)對(duì)齊。


字節(jié)豆包、武大提出 CAL:通過(guò)視覺(jué)相關(guān)的 token 增強(qiáng)多模態(tài)對(duì)齊效果-AI.x社區(qū)



CAL 有以下幾個(gè)亮點(diǎn):


  • 可以直接嵌套到訓(xùn)練過(guò)程,無(wú)需額外預(yù)訓(xùn)練階段。
  • 在 OCR 和 Caption benchmarks 上獲得了明顯的提升,從可視化中可以發(fā)現(xiàn) CAL 使得圖片模態(tài)對(duì)齊效果更好。
  • CAL 使得訓(xùn)練過(guò)程對(duì)噪聲數(shù)據(jù)抵抗能力更強(qiáng)。


研究動(dòng)機(jī)


目前視覺(jué)語(yǔ)言模型依賴于圖片模態(tài)的對(duì)齊,如何做好對(duì)齊非常關(guān)鍵。目前主流的方法是通過(guò)文本自回歸的方式進(jìn)行隱式對(duì)齊,但是每個(gè)文本 token 對(duì)圖像對(duì)齊的貢獻(xiàn)是不一致的,對(duì)這些文本 token 進(jìn)行區(qū)分是非常有必要的。


CAL 提出,在現(xiàn)有的視覺(jué)語(yǔ)言模型(VLM)訓(xùn)練數(shù)據(jù)中,文本 token 可以被分為三類:


  • 與圖片高度相關(guān)的文本:如實(shí)體(例如人、動(dòng)物、物體)、數(shù)量、顏色、文字等。這些 token 與圖像信息直接對(duì)應(yīng),對(duì)多模態(tài)對(duì)齊至關(guān)重要。
  • 與圖片低相關(guān)度的文本:如承接詞或可以通過(guò)前文推斷出的內(nèi)容。這些 token 實(shí)際上主要是在訓(xùn)練 VLM 的純文本能力。
  • 與圖片內(nèi)容相悖的文本:這些 token 與圖像信息不一致,甚至可能提供誤導(dǎo)信息,對(duì)多模態(tài)對(duì)齊過(guò)程產(chǎn)生負(fù)面影響。


字節(jié)豆包、武大提出 CAL:通過(guò)視覺(jué)相關(guān)的 token 增強(qiáng)多模態(tài)對(duì)齊效果-AI.x社區(qū)

圖一:綠色標(biāo)記為與圖片高度相關(guān) token,紅色為內(nèi)容相悖,無(wú)色為中性 token


在訓(xùn)練過(guò)程中,后兩類 token 整體而言實(shí)際上占據(jù)了較大比例,但由于它們并不強(qiáng)依賴于圖片,對(duì)圖片的模態(tài)對(duì)齊作用不大。因此,為了實(shí)現(xiàn)更好的對(duì)齊,需要加大第一類文本 token,即與圖片高度相關(guān)部分 token 的權(quán)重。如何找出這一部分 token 成為了解決這個(gè)問(wèn)題的關(guān)鍵所在。


方法


找出與圖片高度相關(guān) token 這個(gè)問(wèn)題可以通過(guò) condition contrastive 的方式來(lái)解決。


  • 對(duì)于訓(xùn)練數(shù)據(jù)中的每個(gè)圖文對(duì),在沒(méi)有圖片輸入的情況下,每個(gè)文本 token 上的 logit 代表著 LLM 基于上下文情況和已有知識(shí)對(duì)這種情況出現(xiàn)的估計(jì)值。
  • 如果在前面添加圖片輸入,相當(dāng)于提供額外的上下文信息,這種情況下每個(gè) text token 的 logit 會(huì)基于新的情況進(jìn)行調(diào)整。這兩種情況的 logit 變化量代表著圖片這個(gè)新的條件對(duì)每個(gè)文本 token 的影響大小。


具體來(lái)說(shuō),在訓(xùn)練過(guò)程中,CAL 將圖文序列和單獨(dú)的文本序列分別輸入到大語(yǔ)言模型(LLM)中,得到每個(gè)文本 token 的 logit。通過(guò)計(jì)算這兩種情況下的 logit 差值,可以衡量圖片對(duì)每個(gè) token 的影響程度。logit 差值越大,說(shuō)明圖片對(duì)該 token 的影響越大,因此該 token 與圖像越相關(guān)。下圖展示了文本 token 的 logit diff 和 CAL 方法的流程圖。


字節(jié)豆包、武大提出 CAL:通過(guò)視覺(jué)相關(guān)的 token 增強(qiáng)多模態(tài)對(duì)齊效果-AI.x社區(qū)

圖二:左圖是對(duì)兩種情形下 token logit diff 的可視化,右圖是 CAL 方法流程的可視化


實(shí)驗(yàn)


CAL 在 LLaVA 和 MGM 兩個(gè)主流模型上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,在不同規(guī)模的模型下均實(shí)現(xiàn)了性能提升。


包含以下四個(gè)部分的驗(yàn)證:


(1)使用 CAL 的模型在各項(xiàng)基準(zhǔn)測(cè)試指標(biāo)上表現(xiàn)更佳。


字節(jié)豆包、武大提出 CAL:通過(guò)視覺(jué)相關(guān)的 token 增強(qiáng)多模態(tài)對(duì)齊效果-AI.x社區(qū)


字節(jié)豆包、武大提出 CAL:通過(guò)視覺(jué)相關(guān)的 token 增強(qiáng)多模態(tài)對(duì)齊效果-AI.x社區(qū)


(2) 通過(guò)按比例隨機(jī)交換兩個(gè)圖文對(duì)中的文本來(lái)制造一批噪聲數(shù)據(jù)(圖文錯(cuò)配),并用于模型訓(xùn)練,CAL 使得訓(xùn)練過(guò)程具有更強(qiáng)的數(shù)據(jù)抗噪性能。

字節(jié)豆包、武大提出 CAL:通過(guò)視覺(jué)相關(guān)的 token 增強(qiáng)多模態(tài)對(duì)齊效果-AI.x社區(qū)

圖三:在不同強(qiáng)度訓(xùn)練噪聲情況下,CAL 與基線的性能表現(xiàn)


(3)對(duì) QA case 中的答案部分計(jì)算其與圖片 token 的注意力分?jǐn)?shù)分布,并將其繪制在原圖上,CAL 訓(xùn)練的模型擁有更清晰的注意力分布圖。


字節(jié)豆包、武大提出 CAL:通過(guò)視覺(jué)相關(guān)的 token 增強(qiáng)多模態(tài)對(duì)齊效果-AI.x社區(qū)

圖四:基線與 CAL 的 attention map 可視化,每對(duì)中的右邊為 CAL


(4)將每個(gè)圖片 token 映射為它最相似 LLM 詞表中的文本 token,將其繪制到原圖上,CAL 訓(xùn)練的模型映射內(nèi)容更接近圖片內(nèi)容。

字節(jié)豆包、武大提出 CAL:通過(guò)視覺(jué)相關(guān)的 token 增強(qiáng)多模態(tài)對(duì)齊效果-AI.x社區(qū)

圖五:將 image token 映射為最相似詞表 token,并對(duì)應(yīng)到原圖上


團(tuán)隊(duì)介紹:


字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)成立于 2023 年,致力于開(kāi)發(fā)業(yè)界最先進(jìn)的 AI 大模型技術(shù),成為世界一流的研究團(tuán)隊(duì),為科技和社會(huì)發(fā)展作出貢獻(xiàn)。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/CkfSefskLPJwT8-JnBSWcg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦