自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)思維鏈推理在語言模型中的應(yīng)用 原創(chuàng)

發(fā)布于 2024-7-3 06:32
瀏覽
0收藏

?摘要:大型語言模型(LLMs)通過利用思維鏈(CoT)提示生成中間推理鏈作為推斷答案的理由,在復(fù)雜推理方面展現(xiàn)出了令人印象深刻的表現(xiàn)。然而,現(xiàn)有的CoT研究一直專注于語言模態(tài)。我們提出了多模態(tài)CoT,它將語言(文本)和視覺(圖像)模態(tài)結(jié)合到一個兩階段框架中,該框架將理由生成和答案推斷分開。通過這種方式,答案推斷可以利用基于多模態(tài)信息更好地生成的理由。使用多模態(tài)CoT,我們的模型在1億參數(shù)以下的情況下,比以前最先進(jìn)的LLM(GPT-3.5)提高了16個百分點(diǎn)(從75.17%提高到91.68%的準(zhǔn)確率),甚至在ScienceQA基準(zhǔn)測試中超過了人類的表現(xiàn)。代碼已公開可用。

1. 引言

想象一下閱讀一本沒有圖表的教科書。我們獲取知識的能力在很大程度上得益于對多種數(shù)據(jù)模態(tài)(如視覺、語言和音頻)進(jìn)行聯(lián)合建模。近期,大型語言模型(LLMs)(Brown 等人,2020;Thoppilan 等人,2022;Rae 等人,2021;Chowdhery 等人,2022)在通過生成中間推理步驟來推斷答案之前,已經(jīng)在復(fù)雜推理任務(wù)中展現(xiàn)出了令人印象深刻的性能。這種引人入勝的技術(shù)被稱為鏈?zhǔn)剿伎迹–hain-of-Thought,CoT)推理(Wei 等人,2022b;Kojima 等人,2022;Zhang 等人,2022)。

然而,與CoT推理相關(guān)的現(xiàn)有研究大多局限于語言模態(tài)(Wang等人,2022b;Zhou等人,2022;Lu等人,2022b;Fu等人,2022),很少考慮多模態(tài)場景。為了在多模態(tài)中激發(fā)CoT推理,我們提倡一種多模態(tài)CoT范式。鑒于不同模態(tài)的輸入,多模態(tài)CoT將多步驟問題分解為中間推理步驟(理由),然后推斷答案。由于視覺和語言是最受歡迎的兩種模態(tài),我們在這項(xiàng)工作中專注于這兩種模態(tài)。一個例子如圖1所示。一般來說,有兩種方式可以激發(fā)多模態(tài)CoT推理:(i)提示LLMs和(ii)微調(diào)小型模型。

多模態(tài)思維鏈推理在語言模型中的應(yīng)用 -AI.x社區(qū)


圖1. 多模態(tài)CoT任務(wù)的示例。

執(zhí)行多模態(tài)CoT最直接的方法是將不同模態(tài)的輸入轉(zhuǎn)換為一種模態(tài),并提示LLMs執(zhí)行CoT。例如,可以通過標(biāo)題生成模型提取圖像的標(biāo)題,然后將標(biāo)題與原始語言輸入連接起來,輸入到LLMs中(Lu等人,2022a)。然而,在標(biāo)題生成過程中存在嚴(yán)重的信息丟失;因此,使用標(biāo)題(而不是視覺特征)可能會因不同模態(tài)的表示空間中缺乏相互協(xié)同而受到影響。

為了促進(jìn)模態(tài)之間的交互,另一種潛在的解決方案是通過融合多模態(tài)特征來微調(diào)較小的語言模型(LMs)(Zhang等人,2023)。由于這種方法允許調(diào)整模型架構(gòu)以納入多模態(tài)特征的靈活性,我們在這項(xiàng)工作中研究了微調(diào)模型,而不是提示LLMs。關(guān)鍵的挑戰(zhàn)在于,參數(shù)少于100億的語言模型往往會生成誤導(dǎo)答案推斷的幻覺理由(Ho等人,2022;Magister等人,2022;Ji等人,2022)。

為了緩解幻覺的挑戰(zhàn),我們提出了多模態(tài)CoT,它將語言(文本)和視覺(圖像)模態(tài)納入到一個兩階段框架中,該框架將理由生成和答案推斷分開。通過這種方式,答案推斷可以利用基于多模態(tài)信息更好地生成的理由。我們在ScienceQA基準(zhǔn)測試(Lu等人,2022a)上進(jìn)行了實(shí)驗(yàn),這是最新的具有注釋推理鏈的多模態(tài)推理基準(zhǔn)測試。實(shí)驗(yàn)結(jié)果表明,我們的方法在基準(zhǔn)測試上超越了以前的最先進(jìn)GPT-3.5模型16%(75.17%→91.68%)。我們的貢獻(xiàn)總結(jié)如下:

(i)據(jù)我們所知,這項(xiàng)工作是第一個研究不同模態(tài)中CoT推理的工作。

(ii)我們提出了一個通過微調(diào)語言模型來融合視覺和語言表示以執(zhí)行多模態(tài)CoT的兩階段框架。該模型能夠生成有助于推斷最終答案的信息性理由。

(iii)我們的方法在ScienceQA基準(zhǔn)測試上取得了新的最佳性能,超越了GPT-3.5的準(zhǔn)確率16%,甚至超過了人類的表現(xiàn)。

2. 背景

本節(jié)回顧了通過提示和微調(diào)語言模型來激發(fā)CoT推理的最新進(jìn)展。

2.1. 用LLMs進(jìn)行CoT推理

最近,CoT已被廣泛用于激發(fā)LLMs的多步推理能力(Wei等人,2022b)。具體來說,CoT技術(shù)鼓勵LLM生成解決一個問題的中間推理鏈。研究表明,LLMs可以使用兩種主要的技術(shù)范式進(jìn)行CoT推理:零樣本CoT(Kojima等人,2022)和少樣本CoT(Wei等人,2022b;Zhang等人,2022)。對于零樣本CoT,Kojima等人(2022)通過在測試問題后添加提示,如“Let’s think step by step”(讓我們一步步來),來激發(fā)CoT推理,表明LLMs是不錯的零樣本推理器。對于少樣本CoT,使用幾個逐步推理的示例作為推理的條件。每個示例都有一個問題和一個推理鏈,該鏈引導(dǎo)至最終答案。這些示例通常通過手工制作或自動生成獲得。相應(yīng)的技術(shù)因此被稱為手動CoT(Wei等人,2022b)和自動CoT(Zhang等人,2022)。

有了有效的示例,少樣本CoT通常比零樣本CoT表現(xiàn)更強(qiáng),并且吸引了更多的研究興趣。因此,大多數(shù)最近的研究集中在如何改進(jìn)少樣本CoT上。這些研究被歸類為兩個主要的研究線索:(i)優(yōu)化示例;(ii)優(yōu)化推理鏈。表1比較了典型的CoT技術(shù)。

表1. 典型的CoT技術(shù)(FT:微調(diào);KD:知識蒸餾)。第1部分:上下文學(xué)習(xí)技術(shù);第2部分:微調(diào)技術(shù)。據(jù)我們所知,我們的工作是第一個研究不同模態(tài)中的CoT推理。此外,我們專注于10億參數(shù)模型,而不依賴于LLMs的輸出。


多模態(tài)思維鏈推理在語言模型中的應(yīng)用 -AI.x社區(qū)

優(yōu)化示例 少樣本CoT的性能依賴于示例的質(zhì)量。正如Wei等人(2022b)所報(bào)告的,使用不同注釋者編寫的示例在符號推理任務(wù)中導(dǎo)致了顯著的準(zhǔn)確性差異。除了手工制作示例,最近的研究還探討了如何優(yōu)化示例選擇過程。值得注意的是,Rubin等人(2022)檢索了與測試實(shí)例語義相似的示例。然而,當(dāng)推理鏈中存在錯誤時,這種方法顯示出性能下降(Zhang等人,2022)。為了解決這個限制,Zhang等人(2022)發(fā)現(xiàn)關(guān)鍵是示例問題的多樣性,并提出了自動CoT:(i)將給定數(shù)據(jù)集的問題劃分為幾個簇;(ii)從每個簇中抽取一個代表性問題,并使用簡單的啟發(fā)式方法生成其推理鏈。此外,還提出了強(qiáng)化學(xué)習(xí)(RL)和基于復(fù)雜度的選擇策略來獲得有效的示例。Fu等人(2022)選擇了具有復(fù)雜推理鏈的示例(即,具有更多推理步驟)作為示例。Lu等人(2022b)訓(xùn)練了一個代理,從候選池中找到最優(yōu)的上下文示例,并在與GPT-3.5交互時最大化給定訓(xùn)練示例的預(yù)測獎勵。

優(yōu)化推理鏈 優(yōu)化推理鏈的一個顯著方法是問題分解。Zhou等人(2022)提出了最少到最多的提示,將復(fù)雜問題分解為子問題,然后按順序解決這些子問題。結(jié)果,解決給定子問題的便利性得到了之前解決的子問題的答案的幫助。同樣,Khot等人(2022)使用了多樣化的分解結(jié)構(gòu),并設(shè)計(jì)了不同的提示來回答每個子問題。除了將推理鏈作為自然語言文本提示,Chen等人(2022)提出了思維程序(PoT),它將推理過程建模為程序,并提示LLMs通過執(zhí)行生成的程序來推導(dǎo)出答案。另一種趨勢是為測試問題投票多個推理路徑。Wang等人(2022a)引入了一種自一致性解碼策略,對LLMs的多個輸出進(jìn)行采樣,然后對最終答案采取多數(shù)投票。Wang等人(2022b)和Li等人(2022b)在輸入空間引入了隨機(jī)性,以產(chǎn)生更多樣化的輸出進(jìn)行投票。

2.2. 通過微調(diào)模型激發(fā)CoT推理

最近的興趣是通過微調(diào)語言模型來激發(fā)CoT推理。Lu等人(2022a)在具有CoT注釋的大規(guī)模數(shù)據(jù)集上微調(diào)了編碼器-解碼器T5模型。然而,當(dāng)使用CoT來推斷答案時,即在答案之前生成推理鏈(推理),觀察到性能顯著下降。相反,CoT僅作為答案后的解釋使用。Magister等人(2022)和Ho等人(2022)通過在由更大的教師模型生成的思維鏈輸出上微調(diào)學(xué)生模型,采用了知識蒸餾。提出的方法在算術(shù)、常識和符號推理任務(wù)中顯示了性能提升。

在訓(xùn)練10億參數(shù)模型成為CoT推理器方面存在一個關(guān)鍵挑戰(zhàn)。正如Wei等人(2022b)所觀察到的,參數(shù)少于100億的模型傾向于產(chǎn)生不合邏輯的CoT,導(dǎo)致錯誤的答案。換句話說,對于10億參數(shù)模型來說,生成有效的CoT可能比直接生成答案更難。在多模態(tài)設(shè)置中,回答這個問題還需要理解多模態(tài)輸入,這使得挑戰(zhàn)變得更加艱巨。在接下來的部分中,我們將探索多模態(tài)CoT的挑戰(zhàn),并研究如何有效地進(jìn)行多步推理。

3. 多模態(tài)CoT的挑戰(zhàn)

現(xiàn)有的研究表明,CoT(鏈?zhǔn)剿伎迹┩评砟芰赡茉谝欢ㄒ?guī)模的語言模型中出現(xiàn),例如超過1000億參數(shù)(Wei等人,2022a)。然而,在1B(10億)模型中激發(fā)這種推理能力仍然是一個未解決的挑戰(zhàn),更不用說在多模態(tài)場景中了。這項(xiàng)工作專注于1B模型,因?yàn)樗鼈兛梢允褂孟M(fèi)級GPU(例如,32G內(nèi)存)進(jìn)行微調(diào)和部署。在本節(jié)中,我們將探討為什么1B模型在CoT推理上失敗,并研究如何設(shè)計(jì)一種有效的方法來克服這一挑戰(zhàn)。

3.1. 探索CoT的作用

首先,我們在ScienceQA基準(zhǔn)測試上微調(diào)一個僅文本的CoT推理基線(Lu等人,2022a)。按照Lu等人(2022a)的做法,我們采用UnifiedQABase(Khashabi等人,2020)作為后端語言模型。( UnifiedQA (Khashabi et al., 2020) 被采用,因?yàn)樗荓u等人(2022a)中最佳的微調(diào)模型。模型信息和實(shí)現(xiàn)細(xì)節(jié)在附錄B.1中介紹。)我們的任務(wù)被建模為一個文本生成問題,模型將文本信息作為輸入,并生成包含理由和答案的輸出序列。如圖1所示的例子,模型將問題文本(Q)、上下文文本(C)和多個選項(xiàng)(M)的標(biāo)記連接作為輸入。為了研究CoT的效果,我們將性能與三個變體進(jìn)行比較:(i)無CoT,直接預(yù)測答案(QCM→A);(ii)推理,答案推斷以理由為條件(QCM→RA);(iii)解釋,理由用于解釋答案推斷(QCM→AR)。

表2. 在單階段設(shè)置中CoT(鏈?zhǔn)剿伎迹┑男Ч?/p>

 

多模態(tài)思維鏈推理在語言模型中的應(yīng)用 -AI.x社區(qū)

令人驚訝的是,我們觀察到如果模型在預(yù)測答案之前先預(yù)測推理過程(QCM→RA),準(zhǔn)確率會下降12.54%(從80.40%降至67.86%)。這一結(jié)果表明,推理過程并不一定會促進(jìn)正確答案的預(yù)測。在Lu等人(2022a)的研究中也觀察到了類似現(xiàn)象,可能的原因是模型在獲得所需答案前就達(dá)到了最大令牌限制,或者過早停止了預(yù)測的生成。然而,我們發(fā)現(xiàn)生成的推理過程(RA)的最大長度總是少于400個令牌,這遠(yuǎn)低于語言模型的長度限制(例如,在UnifiedQABase中為512個令牌)。因此,深入探究為何推理過程會對答案推斷產(chǎn)生負(fù)面影響,顯得尤為重要。

(注釋:當(dāng)我們讓一個智能模型先去猜測解題的思考步驟(就像先想好怎么算再給出答案),它的答題正確率降低了12.54%,從原來的80.40%掉到了67.86%。這說明,盡管看似多了一個“思考”的步驟,但這個步驟并不總是幫助模型找到正確答案。其他研究者也發(fā)現(xiàn)了類似的問題,可能是模型在還沒找到答案時就已經(jīng)“說”夠了它能說的字?jǐn)?shù),或者是提前結(jié)束了回答。有趣的是,這些思考步驟其實(shí)并不長,遠(yuǎn)遠(yuǎn)沒有達(dá)到模型能處理的最大字?jǐn)?shù)限制。所以,現(xiàn)在有個重要的問題需要研究:為什么這個“先想后答”的過程反而會讓模型答錯更多的題呢?)

3.2. 幻覺理由產(chǎn)生的誤導(dǎo)

為了深入探究理由如何影響答案預(yù)測,我們將CoT問題分為兩個階段:理由生成和答案推斷。我們分別報(bào)告了理由生成和答案推斷的RougeL得分和準(zhǔn)確率。表3顯示了基于兩階段框架的結(jié)果。盡管兩階段基線模型在理由生成上達(dá)到了91.76的RougeL得分,但答案推斷的準(zhǔn)確率僅為70.53%。與表2中的QCM→A變體(80.40%)相比,結(jié)果表明兩階段框架中生成的理由并沒有提高答案的準(zhǔn)確率。

表3展示了兩階段設(shè)置的評估指標(biāo):(i) 理由生成(使用RougeL評分)和(ii) 答案推斷(使用準(zhǔn)確性評分)。


多模態(tài)思維鏈推理在語言模型中的應(yīng)用 -AI.x社區(qū)

然后,我們隨機(jī)抽取了50個錯誤案例,并發(fā)現(xiàn)模型傾向于生成誤導(dǎo)答案推斷的幻想理由。如圖2所示的例子,模型(左側(cè)部分)幻想出,“一個磁鐵的南極最靠近另一個磁鐵的南極”,這是由于缺乏對視覺內(nèi)容的引用。我們發(fā)現(xiàn),在錯誤案例中,這類錯誤發(fā)生的比例為64%(見圖3(a))。


多模態(tài)思維鏈推理在語言模型中的應(yīng)用 -AI.x社區(qū)

圖2展示了在不使用視覺特征(基線)和結(jié)合視覺特征(我們的方法)的情況下,用于生成推理理由和預(yù)測答案的兩階段框架示例。上半部分展示了帶有真實(shí)推理依據(jù)的問題細(xì)節(jié),而下半部分則展示了基線方法及我們結(jié)合視覺特征的方法的輸出結(jié)果。我們注意到,由于受到虛構(gòu)推理依據(jù)的誤導(dǎo),基線方法未能預(yù)測出正確答案。更多示例請參見附錄A.1。

(圖片解釋:兩階段框架的示例,該框架用于生成理由(rationales)和預(yù)測答案:

問題(Problem)

- 問題:這些磁鐵會相互吸引還是相互排斥

上下文(Context)

- 兩個磁鐵如圖所示放置。提示:相互吸引的磁鐵會相互拉近。相互排斥的磁鐵會相互推開。

選項(xiàng)(Options)

- (A) 吸引 (attract)

- (B) 排斥 (repel)

理由(Gold Rationale)

- 磁鐵無需接觸即可相互拉動或推開。當(dāng)磁鐵相互吸引時,它們會彼此靠近;當(dāng)磁鐵相互排斥時,它們會彼此遠(yuǎn)離。一個磁鐵是吸引還是排斥其他磁鐵,取決于其磁極(或兩端)的位置。每個磁鐵都有兩個磁極,稱為北極和南極。以下是一些磁鐵的例子。每個磁鐵的北極標(biāo)有N,南極標(biāo)有S。如果不同的磁極彼此靠近,磁鐵就會相互吸引。如下一對磁鐵會相互吸引。如果相同的磁極彼此靠近,磁鐵則會相互排斥。如下兩對磁鐵都會相互排斥。這些磁鐵會吸引還是排斥呢?要找出答案,只需看哪些磁極彼此最靠近。一個磁鐵的北極離另一個磁鐵的南極最近。不同的磁極會相互吸引。因此,這些磁鐵將會相互吸引。

答案(Answer)

- 根據(jù)黃金理由,答案是(A) 吸引。

基線模型生成理由(Generated Rationale)

- 生成的推理:磁鐵無需觸碰就能相互拉動或推開。當(dāng)磁鐵相互吸引時,它們會彼此靠近。當(dāng)磁鐵相互排斥時,它們會彼此推開。一個磁鐵是否吸引或排斥其他磁鐵,取決于其磁極或兩端的位置。每個磁鐵有兩個磁極,分別稱為北極和南極。以下是一些磁鐵的例子。每個磁鐵的北極標(biāo)記為N,南極標(biāo)記為S。如果不同的磁極彼此最靠近,磁鐵就會相互吸引。如下一對磁鐵會相互吸引。如果相同的磁極彼此最靠近,磁鐵則會相互排斥。如下兩對磁鐵都會相互排斥。這些磁鐵會吸引還是排斥呢?要找出答案,只需觀察哪個磁極彼此最靠近。一個磁鐵的南極離另一個磁鐵的南極最近。相同的磁極會相互排斥。因此,這些磁鐵將會相互排斥。

答案,基線模型的最終答案是(B) 排斥,這與黃金理由相矛盾?;卮疱e誤

+視覺特征的生成理由(Generated Rationale)

磁鐵能夠不通過接觸而相互拉扯或推開。當(dāng)磁鐵相互吸引時,它們會聚在一起。當(dāng)磁鐵相互排斥時,它們會分散開來。一個磁鐵是吸引還是排斥其他磁鐵,取決于其磁極或兩端的位置關(guān)系。每個磁鐵都有兩個磁極,分別稱為北極和南極。以下是一些磁鐵的例子。每個磁鐵的北極被標(biāo)記為N,南極被標(biāo)記為S。如果不同磁極相互間距離最近,磁鐵就會相互吸引。如下圖這一對磁鐵會相互吸引。如果相同磁極相互間距離最近,磁鐵則會相互排斥。如下兩對磁鐵都顯示出相互排斥的現(xiàn)象。要判斷這些磁鐵會吸引還是排斥,只需查看哪兩個磁極距離最近。一個磁鐵的北極與另一個磁鐵的南極距離最近。不同的磁極會相互吸引。因此,這兩個磁鐵會相互吸引。

答案是:(A)?;卮鹫_


多模態(tài)思維鏈推理在語言模型中的應(yīng)用 -AI.x社區(qū)

圖3  (a) 幻想錯誤的比例以及(b) 結(jié)合視覺特征后的糾錯率。

4. 多模態(tài)-CoT

基于第3節(jié)中的觀察和討論,我們提出多模態(tài)-CoT框架,旨在將語言(文本)和視覺(圖像)兩種模態(tài)融入一個兩階段框架中。本節(jié)首先概述該框架的流程,然后詳述模型架構(gòu)的技術(shù)設(shè)計(jì)。

4.1. 框架概覽

多模態(tài)-CoT包括兩個訓(xùn)練階段:(i) 理由生成和(ii) 答案推斷。這兩個階段采用相同的模型架構(gòu),但在輸入X和輸出Y上有所區(qū)別。整個流程如圖4所示。我們將以視覺-語言為例來展示多模態(tài)-CoT的工作原理。


多模態(tài)思維鏈推理在語言模型中的應(yīng)用 -AI.x社區(qū)

圖4. 我們的多模態(tài)-CoT框架概覽。多模態(tài)-CoT包含兩個階段:(i) 理由生成和(ii) 答案推斷。這兩個階段共享相同的模型架構(gòu),但在輸入和輸出上有所不同。在第一階段,我們向模型輸入語言和視覺信息以生成推理理由。在第二階段,我們將原始語言輸入與第一階段生成的推理理由相結(jié)合。隨后,我們將更新后的語言輸入與原始視覺輸入一起饋送給模型,以推斷出答案。

(理由翻譯:查看每一個物體。對于每個物體,判斷它是否具有那種屬性。薯片具有咸味。兩個物體都是咸的。柔軟的物體會在你擠壓時改變形狀。薯?xiàng)l是軟的,但餅干不是。兩個物體共有的屬性是咸味。)

在理由生成階段,我們向模型輸入X = {X1language, Xvision},其中X1language代表第一階段的語言輸入,Xvision代表視覺輸入,即圖像。例如,X可以實(shí)例化為一個組合,包含問題、上下文和多項(xiàng)選擇推理問題的選項(xiàng)(如Lu等人,2022a),如圖4所示。目標(biāo)是學(xué)習(xí)一個理由生成模型R = F(X),其中R即為推理理由。

在答案推斷階段,將理由R附加到原始語言輸入X1language上,構(gòu)建第二階段的語言輸入X2language = X1language?R,其中?表示連接操作。然后,我們將更新后的輸入X’ = {X2language, Xvision}傳遞給答案推斷模型以推斷最終答案A = F(X’)。

在這兩個階段中,我們獨(dú)立地使用相同架構(gòu)訓(xùn)練兩個模型。它們從訓(xùn)練集中取注釋元素(例如,X → R,XR → A)進(jìn)行監(jiān)督學(xué)習(xí)。在推理過程中,給定X,使用第一階段訓(xùn)練的模型為測試集生成理由;這些理由在第二階段用于答案推斷。

4.2. 模型架構(gòu)

給定語言輸入Xlanguage ∈ {X1language, X2language}和視覺輸入Xvision,我們計(jì)算長度為N的目標(biāo)文本Y(圖4中的理由或答案)的生成概率為


多模態(tài)思維鏈推理在語言模型中的應(yīng)用 -AI.x社區(qū)

其中pθ (Yi | Xlanguage, Xvision, Y<i) 通過基于Transformer的網(wǎng)絡(luò)(Vaswani等人,2017)實(shí)現(xiàn)。該網(wǎng)絡(luò)包括三個主要步驟:編碼、交互和解碼。具體而言,我們將語言文本輸入到Transformer編碼器中以獲得文本表示,然后與視覺表示進(jìn)行交互并融合,再輸入到Transformer解碼器中。

編碼 模型F(X)同時接受語言和視覺輸入,并通過以下函數(shù)獲取文本表示Hlanguage和圖像特征Hvision


多模態(tài)思維鏈推理在語言模型中的應(yīng)用 -AI.x社區(qū)

其中LanguageEncoder(·)實(shí)現(xiàn)為Transformer模型。我們使用Transformer編碼器最后一層的隱藏狀態(tài)作為語言表示Hlanguage∈Rn×d ,其中n為語言輸入的長度,d為隱藏維度。同時,VisionExtractor(·)用于將輸入圖像向量化為視覺特征。受Vision Transformers(Dosovitskiy等人,2021)近期成功的啟發(fā),我們使用現(xiàn)成的視覺提取模型(如DETR(Carion等人,2020))獲取圖像的patch級特征。獲取到patch級視覺特征后,我們應(yīng)用一個可學(xué)習(xí)的投影矩陣Wh將VisionExtractor(Xvision)的形狀轉(zhuǎn)換為Hlanguage的形狀,因此我們有Hvision∈Rm×d,其中m為patch的數(shù)量。

交互 獲得語言和視覺表示后,我們使用單頭注意力網(wǎng)絡(luò)來關(guān)聯(lián)文本令牌和圖像patch,其中查詢(Q)、鍵(K)和值(V)分別是Hlanguage、Hvision和Hvision。注意力輸出Hattnvision ∈ Rn×d定義為:


多模態(tài)思維鏈推理在語言模型中的應(yīng)用 -AI.x社區(qū)

其中dk與Hlanguage的維度相同,因?yàn)閮H使用了一個頭。

接著,我們應(yīng)用門控融合機(jī)制(Zhang等人,2020;Wu等人,2021;Li等人,2022a)來融合Hlanguage和Hvision。融合輸出Hfuse ∈ Rn×d通過以下公式獲得:


多模態(tài)思維鏈推理在語言模型中的應(yīng)用 -AI.x社區(qū)

其中Wl和Wv是可學(xué)習(xí)參數(shù)。

解碼 最終,融合輸出Hfuse被送入Transformer解碼器以預(yù)測目標(biāo)Y。多模態(tài)-CoT的完整流程如算法1所示。


多模態(tài)思維鏈推理在語言模型中的應(yīng)用 -AI.x社區(qū)

5. 實(shí)驗(yàn)

本節(jié)將介紹基準(zhǔn)數(shù)據(jù)集、我們技術(shù)的實(shí)現(xiàn)以及用于比較的基線。然后,我們將報(bào)告我們的主要結(jié)果和發(fā)現(xiàn)。

5.1. 數(shù)據(jù)集

我們的方法在ScienceQA基準(zhǔn)測試(Lu等人,2022a)上進(jìn)行評估。ScienceQA是第一個大規(guī)模多模態(tài)科學(xué)問題數(shù)據(jù)集,它用詳細(xì)的講座和解釋注釋答案。它包含21k多模態(tài)多項(xiàng)選擇題,涵蓋3個主題、26個話題、127個類別和379個技能的豐富領(lǐng)域多樣性?;鶞?zhǔn)數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測試集,分別包含12726、4241和4241個示例。

5.2. 實(shí)現(xiàn)

以下部分介紹了多模態(tài)CoT和基線方法的實(shí)驗(yàn)設(shè)置。

實(shí)驗(yàn)設(shè)置 由于多模態(tài)CoT任務(wù)需要生成推理鏈并利用視覺特征,我們使用T5編碼器-解碼器架構(gòu)(Raffel等人,2020)。具體來說,我們采用UnifiedQA(Khashabi等人,2020)來初始化兩個階段的模型,因?yàn)樗贚u等人(2022a)中取得了最佳的微調(diào)結(jié)果。為了驗(yàn)證我們方法在不同語言模型(LMs)中的通用性,我們還使用FLAN-T5(Chung等人,2022)作為第6.3節(jié)的主干。由于在第3.3節(jié)中使用圖像標(biāo)題并沒有帶來顯著的性能提升,我們沒有使用標(biāo)題。我們對模型進(jìn)行最多20個epoch的微調(diào),學(xué)習(xí)率為5e-5。最大輸入序列長度為512?;A(chǔ)和大型模型的批量大小分別為16和8。我們的實(shí)驗(yàn)在4個NVIDIA Tesla V100 32G GPU上運(yùn)行。

基線模型 按照Lu等人(2022a)的做法,我們的基線包括:(i)視覺問答(VQA)模型(Anderson等人,2018;Kim等人,2018;Yu等人,2019;Gao等人,2019;Kim等人,2021;Lu等人,2021;Li等人,2019);(ii)文本到文本的語言模型(Khashabi等人,2020);(iii)GPT-3.5模型(Chen等人,2020)。更多細(xì)節(jié)在附錄B.1中介紹。

5.3. 主要結(jié)果

表4顯示了主要結(jié)果。多模態(tài)CoTLarge在性能上超過了GPT-3.5的16.51%(75.17%→91.68%),并且超過了人類表現(xiàn)。具體來說,在8個問題類別中,多模態(tài)CoTLarge對于配對圖像(IMG)的問題實(shí)現(xiàn)了21.37%的性能提升(67.43%→88.80%)。與現(xiàn)有的利用圖像標(biāo)題在上下文中提供視覺語義的UnifiedQA和GPT-3.5方法相比,結(jié)果表明使用圖像特征更有效。此外,根據(jù)我們在表5中的消融研究結(jié)果,我們的兩階段框架有助于取得優(yōu)越的結(jié)果??傮w而言,結(jié)果驗(yàn)證了多模態(tài)的有效性以及通過我們的兩階段框架實(shí)現(xiàn)1B模型CoT推理的潛力。

表4. 主要結(jié)果(%)。大小 = 主干模型大小。問題類別:NAT = 自然科學(xué),SOC = 社會科學(xué),LAN = 語言科學(xué),TXT = 文本上下文,IMG = 圖像上下文,NO = 無上下文,G1-6 = 1-6年級,G7-12 = 7-12年級。除我們的結(jié)果外,其他結(jié)果均摘自Lu等人(2022a)。第1段:人類表現(xiàn);第2段:VQA基線;第3段:UnifiedQA基線;第4段:GPT-3.5基線;第5段:我們的多模態(tài)CoT結(jié)果。加粗的結(jié)果表示最佳表現(xiàn)。


多模態(tài)思維鏈推理在語言模型中的應(yīng)用 -AI.x社區(qū)

表5. 多模態(tài)CoT的消融研究結(jié)果。


多模態(tài)思維鏈推理在語言模型中的應(yīng)用 -AI.x社區(qū)

6. 分析

以下分析將探討多模態(tài)CoT的工作原理,并討論影響因素和局限性。除非另有說明,我們使用基礎(chǔ)大小的模型進(jìn)行分析。

6.1. 多模態(tài)加速收斂

圖5顯示了不同訓(xùn)練周期下基線和多模態(tài)CoT的評估準(zhǔn)確率曲線。“單階段”基于QCM→A輸入輸出格式,因?yàn)樗诒?中表現(xiàn)最佳,“雙階段”是我們的雙階段框架。我們發(fā)現(xiàn),與直接生成答案而不進(jìn)行CoT的單階段基線相比,雙階段方法在開始時的準(zhǔn)確率相對較高。然而,沒有視覺特征,雙階段基線隨著訓(xùn)練的進(jìn)行無法產(chǎn)生更好的結(jié)果,因?yàn)槔碛少|(zhì)量低(如第3節(jié)觀察到的)。相比之下,使用視覺特征有助于生成更有效的推理,這有助于我們雙階段多模態(tài)變體中更好的答案準(zhǔn)確率。


多模態(tài)思維鏈推理在語言模型中的應(yīng)用 -AI.x社區(qū)

圖5. 無CoT基線和多模態(tài)CoT變體在各個epoch(訓(xùn)練周期)上的準(zhǔn)確率曲線。

6.2. 使用不同的視覺特征

不同的視覺特征可能會影響模型性能。我們比較了三種廣泛使用的視覺特征類型,CLIP(Radford等人,2021)、DETR(Carion等人,2020)和ResNet(He等人,2016)。CLIP和DETR是類似補(bǔ)丁的特征,其中DETR基于目標(biāo)檢測。對于ResNet特征,我們將ResNet-50的池化特征重復(fù)到與文本序列相同的長度,以模仿補(bǔ)丁特征,其中每個補(bǔ)丁與池化圖像特征相同。視覺特征的更多細(xì)節(jié)在附錄B.2中介紹。


多模態(tài)思維鏈推理在語言模型中的應(yīng)用 -AI.x社區(qū)

表6顯示了視覺特征的比較結(jié)果。我們觀察到使用視覺特征通常比僅使用語言的基線表現(xiàn)更好。具體來說,DETR通常表現(xiàn)更好。因此,在多模態(tài)CoT中,我們默認(rèn)使用DETR。

6.3. 在不同主干模型上的普遍有效性

為了測試我們方法的好處對其他主干模型的普遍性,我們將底層語言模型更改為不同大小或類型的其他變體。如表7所示,我們的方法對于廣泛使用的主干模型通常是有效的。


多模態(tài)思維鏈推理在語言模型中的應(yīng)用 -AI.x社區(qū)

6.4. 錯誤分析

為了更好地理解多模態(tài)CoT的行為并促進(jìn)未來的研究,我們手動調(diào)查了我們方法生成的隨機(jī)選擇的示例。表8總結(jié)了由多模態(tài)CoT生成的分類結(jié)果。我們隨機(jī)挑選了50個答案正確的樣本和50個答案不正確的樣本。每個類別的相應(yīng)示例在附錄C中介紹。


多模態(tài)思維鏈推理在語言模型中的應(yīng)用 -AI.x社區(qū)

我們發(fā)現(xiàn)正確的樣本(即答案正確的樣本)包含一定數(shù)量的錯誤思維鏈(10%)。結(jié)果表明,CoT可能并不總是有助于答案推斷,而且模型在一定程度上是健壯的——它可以通過忽略錯誤的推理來預(yù)測正確的答案。對于錯誤的樣本(即答案錯誤的樣本),思維鏈中的常識性錯誤是最常見的錯誤類型(88%)。當(dāng)回答這些問題需要常識知識時,模型經(jīng)常犯常識性錯誤,例如,理解地圖和計(jì)算圖像中的數(shù)字(圖9),以及使用字母表(圖10)。另一種錯誤類型是邏輯錯誤(12%),推理鏈中存在矛盾(圖11)。此外,還有一些情況是答案不正確,但它們的CoT是正確的(6%),但可能不一定與答案選項(xiàng)相關(guān)(圖12)。

分析表明,未來的研究有前景方向。通過(i)整合更多信息的視覺特征和改進(jìn)語言-視覺交互以能夠理解地圖和計(jì)數(shù);(ii)注入常識知識;(iii)應(yīng)用過濾機(jī)制,例如,只使用有效的CoT來推斷答案并擺脫無關(guān)的CoT,可以改進(jìn)多模態(tài)CoT。

7. 結(jié)論

我們正式研究了多模態(tài)CoT問題。我們提出了多模態(tài)CoT,它將語言和視覺模態(tài)結(jié)合到一個雙階段框架中,該框架將理由生成和答案推斷分開,使答案推斷能夠利用從多模態(tài)信息中更好地生成的理由。通過多模態(tài)CoT,我們展示了我們的方法在ScienceQA基準(zhǔn)測試中的準(zhǔn)確率超過了GPT-3.5的16個百分點(diǎn)。我們的錯誤分析表明,利用更有效的視覺特征、注入常識知識以及應(yīng)用過濾機(jī)制來改進(jìn)未來研究中的CoT推理是有潛力的。

Zhang Z, Zhang A, Li M, et al. Multimodal chain-of-thought reasoning in language models[J]. arXiv preprint arXiv:2302.00923, 2023.

?

本文轉(zhuǎn)載自公眾號AIRoobt ,作者:AIRoobt

原文鏈接:??https://mp.weixin.qq.com/s/wA6Zn8VvYNkbBi4usidWNw??



?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦