自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICLR 2025 Oral | IDEA聯(lián)合清華北大提出ChartMoE:探究下游任務(wù)中多樣化對齊MoE的表征和知識

人工智能 新聞
ChartMoE 是一個以 InternLM-XComposer2 模型為訓(xùn)練起點(diǎn)、引入 MoE Connector 結(jié)構(gòu)的多模態(tài)大語言模型,具有先進(jìn)的圖表理解、圖表重繪、圖表編輯、重要部分高亮、轉(zhuǎn)換圖表類型等能力。

最近,全球 AI 和機(jī)器學(xué)習(xí)頂會 ICLR 2025 公布了論文錄取結(jié)果:由 IDEA、清華大學(xué)、北京大學(xué)、香港科技大學(xué)(廣州)聯(lián)合團(tuán)隊提出的 ChartMoE 成功入選 Oral (口頭報告) 論文。據(jù)了解,本屆大會共收到 11672 篇論文,被選中做 Oral Presentation(口頭報告)的比例約為 1.8%

圖片

研究動機(jī)與主要貢獻(xiàn):

  • 不同于現(xiàn)階段使用 MoE 架構(gòu)的原始動機(jī),ChartMoE 的目標(biāo)不是擴(kuò)展模型的容量,而是探究 MoE 這種 Sparse 結(jié)構(gòu)在下游任務(wù)上的應(yīng)用,通過對齊任務(wù)來增強(qiáng)模型對圖表的理解能力,同時保持在其他通用任務(wù)上的性能。
  • 不同于之前依賴 ramdom 或 co-upcycle 初始化的方法,ChartMoE 利用多樣的對齊任務(wù)進(jìn)行專家初始化。這種方法加大了專家間的異質(zhì)性,使 ChartMoE 可以學(xué)習(xí)到更全面的視覺表征,展現(xiàn)出顯著的解釋性。

圖片

ChartMoE 是一個以 InternLM-XComposer2 模型為訓(xùn)練起點(diǎn)、引入 MoE Connector 結(jié)構(gòu)的多模態(tài)大語言模型,具有先進(jìn)的圖表理解、圖表重繪、圖表編輯、重要部分高亮、轉(zhuǎn)換圖表類型等能力。ChartMoE 為圖表(Chart)這種獨(dú)特于自然圖像的輸入,設(shè)計了多階段的圖文對齊方式,每一個階段產(chǎn)物都是 MoE Connector 中的一個專家,這樣的訓(xùn)練方式和模型設(shè)計不僅能獲得更全面的視覺表征、顯著提高 MLLM 的圖表理解能力,還可以在不加入通用數(shù)據(jù)的情景下,減少模型對通用知識的遺忘。

多階段對齊訓(xùn)練的 MoE

圖片

圖片


  • 通用 MLLM,如 LLaVA,他們的 training recipe 通常分為兩個階段,第一個階段使用圖文對(image-text pair)訓(xùn)練 MLP Connector,第二階段 SFT 訓(xùn)練 MLP Connector + LLM。
  • 這種范式可以很自然的遷移到 Chart MLLM 中,如:ACL24 的 ChartAst,使用成對的 Chart-Table 進(jìn)行第一階段的圖文對齊。

然而,Table 這種結(jié)構(gòu)化文本格式,其中僅包含了每個數(shù)據(jù)點(diǎn)的數(shù)值,以及 xy 軸的含義等信息,幾乎不保留視覺元素信息,如:顏色、圖表類型、圖形元素的相對關(guān)系等。所以,ChartMoE 希望采用更多樣、更全面的對齊方式,將 Chart 轉(zhuǎn)譯成三種結(jié)構(gòu)化文本格式:Table、JSON、Python Code。

我們以開源數(shù)據(jù)集(ChartQA、PlotQA、ChartY)中的表格數(shù)據(jù)作為起始點(diǎn),為每個圖表類型人為定義了 JSON 鍵,通過 random 生成、GPT 生成等方式為每個鍵填上對應(yīng)的值,從而構(gòu)建出 JSON 數(shù)據(jù)。此后可以將 JSON 中的鍵值對填入到每個圖表類型預(yù)定義好的代碼模板中得到 Python 代碼來生成圖表,從而構(gòu)成 (Chart, Table, JSON, Code) 四元組,通過這種方式,采集了約 900k 數(shù)據(jù),稱為 ChartMoE-Align。

圖片

獲取到數(shù)據(jù)后,ChartMoE 采用 chart-to-table、chart-to-json、chart-to-code 三種方式進(jìn)行圖文對齊,每個任務(wù)分別訓(xùn)練一個獨(dú)立的 MLP Connector,拼上初始的通用 MLLM 中的 MLP Connector,再加上一個隨機(jī)初始化的 learnable router,就可以構(gòu)成一個亟待吃下 SFT 數(shù)據(jù)的 MoE Connector,即:Diversely Aligned MoE。

圖片

圖片

對比 Diversely Aligned MoE 與 Random 初始化、Co-Upcycle 初始化(即把通用 Connector 復(fù)制 N 份)的 Training Loss,我們發(fā)現(xiàn),Diversely Aligned MoE 能夠有更低的初始 loss(因為已經(jīng)更好地學(xué)到了對齊到后續(xù) LLM 的 chart 表征),以及整體更平滑的訓(xùn)練曲線。

Training Recipes

ChartMoE 訓(xùn)練分為三個階段:

  • 多階段對齊(數(shù)據(jù):ChartMoE-Align,Table 500k + JSON 200k + Code 100k),僅訓(xùn)練 MLP Connector,最后拼成 MoE Connector。
  • 廣泛學(xué)習(xí)高質(zhì)量知識(使用 MMC-Instruct 數(shù)據(jù)集,包含很多 Chart 相關(guān)的任務(wù),如:Chart Summarization),訓(xùn)練 MoE Connector(尤其是 Learnable Router,亟待學(xué)習(xí))以及 LLM Lora。
  • Chart 領(lǐng)域 SFT(ChartQA + ChartGemma):訓(xùn)練 MoE Connector 以及 LLM Lora;
  • PoT(Program-of-Thought):即輸出 python 代碼來解決問題,可以讓模型將計算交給代碼,提高解題準(zhǔn)確率,如:一個利潤柱狀圖,問最高利潤和最低利潤差多少,就會輸出代碼:
    profits = [5, 7, 9, 1, 11, -3]
    print (max (profits) - min (profits))

ChartMoE 表征可視化

按每個 Visual Patch Token 選擇的專家序號進(jìn)行可視化,觀察 Visual Patch 的 Top-1 的專家選擇分布:

圖片

圖片

  • 背景 tokens 傾向于選擇通用通用專家,也說明通用專家選擇占比非常高。
  • 數(shù)據(jù)點(diǎn)、圖像元素、圖像元素間的 interaction(如第一行第四列的 graph 圖的 edges)非常傾向于選擇 code 專家(盡管 chart-to-code 數(shù)據(jù)中并沒有包含這種 graph 圖表)。
  • 標(biāo)題、xy 軸標(biāo)注、xy 軸刻度、圖例等文本信息,傾向于選擇 table/JSON 專家。
  • 類似的現(xiàn)象也可以泛化到通用場景,盡管我們整個 training 中完全沒有包含這樣的數(shù)據(jù)。

ChartMoE 專家分布可視化

我們分析了完全讓模型自由學(xué)習(xí),不加入 MoE balance loss 下的專家選擇分布,和上文所述符合,模型傾向于選擇通用專家和最富含信息的 Code 專家 Random 初始化、Co-Upcycle 初始化、加入 balance loss 的 Diversely-Aligned 初始化,我們均有進(jìn)行專家選擇分布的分析,以及嚴(yán)格控制變量下的 ChartQA 性能比較:

圖片

圖片

盡管前三者都會獲得更均衡的專家分布,但性能是不如完全不加 balance loss 自由學(xué)習(xí) Divesely-Aligned MoE 的,可能是因為:

  1. 對于視覺信息,本就是分類不均衡的,信息相對少的背景 tokens 占全部視覺 tokens 的大多數(shù)。
  2. balance loss 本身目的并非在于性能的提升,而是專家選擇更均衡后,配合專家并行 (Expert Parallel) 技術(shù),可以提高訓(xùn)練 / 推理的效率。

我們額外分析了最終的 ChartMoE checkpoint,強(qiáng)行固定選擇某個專家的性能:

圖片

可以看到,和專家選擇分布基本保持一致,模型自己最知道哪個專家能獲得好性能了。

ChartMoE Performance(Chart & 通用)

這里想先 show 一下通用領(lǐng)域,因為 chart 領(lǐng)域的 sota 在進(jìn)行了細(xì)粒度的多樣化對齊后,相對來說更加可以預(yù)見。在不使用通用領(lǐng)域數(shù)據(jù)的情況下,在通用領(lǐng)域中遺忘更少,可能是做下游領(lǐng)域 MLLM 更關(guān)注的事情。這會讓我們有更好的預(yù)期:比如加入通用數(shù)據(jù)后,通用能力不掉!

我認(rèn)為通用領(lǐng)域遺忘更少有兩個原因:

  1. (顯而易見)插入了通用專家,盡管通用專家也更新了。
  2. (可能更本質(zhì))MoE Connector 的結(jié)構(gòu),由于 learnable router 的存在,通用專家的更新相比普通的 MLP Connector 是更少的(比如有些 token 可能確實沒選到通用專家,它就不會對通用專家的更新產(chǎn)生貢獻(xiàn)),某種程度上,可以認(rèn)為 MoE Connector 這種 sparse 結(jié)構(gòu)本身就帶有一定的正則作用。

通用領(lǐng)域

我們選擇了 MME 和 MMBench 兩個比較有代表性的通用領(lǐng)域的 benchmark,比較了 baseline(InternLM-XComposer2)、用 chart 數(shù)據(jù) directly SFT、以及 ChartMoE 的性能,可以看到,Directly SFT 模型在通用領(lǐng)域掉點(diǎn)嚴(yán)重,ChartMoE 幾乎不會掉性能,且在有些細(xì)分領(lǐng)域上還有增點(diǎn)

圖片

Chart 領(lǐng)域

對于 Chart 領(lǐng)域,我們選擇了 ChartQA、ChartBench(主要是無數(shù)值標(biāo)注的 Chart)、ChartFC&ChartCheck(Fact Checking 任務(wù),回答支持或不支持),在這些 Benchmark 上,ChartMoE 都能達(dá)到非常好的性能,尤其是相對初始的 baseline 模型(InternLM-XComposer2)提升非常顯著

圖片

圖片

圖片

Conclusion

在 ChartMoE 這個工作中,我們探索了通用 MLLM 使用 MoE 這種 sparse 的結(jié)構(gòu)后在下游任務(wù)上的表現(xiàn):

  1. 從 Representation 角度:專家異質(zhì)化的 MoE 可以獲得更加多樣、更加全面的視覺表征,從而在下游任務(wù)上達(dá)到更好的性能。
  2. 從 Knowledge 角度:MoE 這種 Sparse 結(jié)構(gòu),可以等價于加入了適量的正則項,既能顯著提高下游任務(wù)性能,也能緩解下游領(lǐng)域模型在通用任務(wù)上遺忘。

ChartMoE 是一個拋磚引玉的工作,我們相信后續(xù)也會有更多工作去探索下游任務(wù)中 Sparse 結(jié)構(gòu)的表現(xiàn)!

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-04-08 09:42:00

2025-03-21 10:08:37

2025-01-15 14:58:06

2021-08-06 22:33:18

機(jī)器人高考人工智能

2016-08-12 09:24:33

開源多樣化亮點(diǎn)

2010-07-29 17:00:36

Flex餅圖

2014-10-30 09:24:08

VMware

2024-06-06 17:32:41

2025-04-22 09:40:00

2013-02-22 11:39:27

BGP控制方式路由流向

2011-06-22 09:54:13

網(wǎng)絡(luò)技術(shù)虛擬化網(wǎng)絡(luò)OpenFlow

2015-03-23 16:42:06

2021-02-05 23:18:55

云計算IT技術(shù)

2010-11-09 10:37:21

2015-10-09 11:27:36

綜合布線布線技術(shù)

2017-05-16 15:00:25

存儲云端解決方案

2023-03-23 18:46:19

論文

2015-01-07 09:42:55

5G25G以太網(wǎng)

2015-12-11 22:40:10

大數(shù)據(jù)OpenPOWERPOWER8

2020-11-13 09:57:10

多樣化IT行業(yè)個性化支持
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號