自我一致性提升大模型中的思維鏈推理能力 原創(chuàng)
摘要:結(jié)合預(yù)訓(xùn)練大型語(yǔ)言模型的鏈?zhǔn)剿伎继崾驹趶?fù)雜推理任務(wù)上已取得令人鼓舞的成果。本文提出了一種新的解碼策略——自我一致性,以替代鏈?zhǔn)剿伎继崾局惺褂玫臉闼刎澙方獯a。該策略首先采樣一套多樣化的推理路徑,而非單一的貪心路徑,并通過(guò)邊緣化采樣的推理路徑來(lái)選擇最一致的答案。自我一致性利用了這樣一種直覺(jué):一個(gè)復(fù)雜的推理問(wèn)題通常允許通過(guò)多種不同的思考方式達(dá)到其唯一正確的答案。廣泛的實(shí)證評(píng)估表明,自我一致性顯著提升了鏈?zhǔn)剿伎继崾驹谝幌盗辛餍兴阈g(shù)和常識(shí)推理基準(zhǔn)上的性能,包括GSM8K(+17.9%)、SVAMP(+11.0%)、AQuA(+12.2%)、StrategyQA(+6.4%)以及ARC挑戰(zhàn)賽(+3.9%)。
1、引言
盡管語(yǔ)言模型在眾多自然語(yǔ)言處理任務(wù)中展現(xiàn)出卓越的成功,但它們展現(xiàn)推理能力的能力常被視為局限,這一局限性不能僅通過(guò)增加模型規(guī)模來(lái)克服(Rae等人,2021;BIG-bench合作項(xiàng)目,2021等)。為了應(yīng)對(duì)這一不足,Wei等人(2022)提出了鏈?zhǔn)剿伎继崾痉椒?,即促使語(yǔ)言模型生成一系列簡(jiǎn)短句子,模擬個(gè)人在解決問(wèn)題時(shí)可能采用的推理過(guò)程。例如,面對(duì)問(wèn)題“停車場(chǎng)有3輛車,又有2輛車到達(dá),現(xiàn)在停車場(chǎng)有多少輛車?”時(shí),語(yǔ)言模型不是直接回答“5”,而是被提示輸出整個(gè)思考鏈:“停車場(chǎng)已有3輛車。又有2輛到達(dá)?,F(xiàn)在是3+2=5輛車。答案是5。”。人們觀察到,鏈?zhǔn)剿伎继崾撅@著提高了模型在多種多步推理任務(wù)上的表現(xiàn)(Wei等人,2022)。
在本文中,我們引入一種新穎的解碼策略——自我一致性,用以替代鏈?zhǔn)剿伎继崾荆╓ei等人,2022)中使用的貪婪解碼策略,進(jìn)一步顯著提升語(yǔ)言模型的推理性能。自我一致性利用了這樣一個(gè)直覺(jué):復(fù)雜的推理任務(wù)通常允許多條推理路徑達(dá)到正確答案(Stanovich & West, 2000)。一個(gè)問(wèn)題越是需要深思熟慮和分析(Evans, 2010),能恢復(fù)答案的推理路徑多樣性就越大。圖1通過(guò)示例說(shuō)明了自我一致性方法。我們首先使用鏈?zhǔn)剿伎继崾炯ぐl(fā)語(yǔ)言模型,然后不是貪心地解碼最優(yōu)推理路徑,而是提出一個(gè)“采樣-邊緣化”解碼過(guò)程:我們首先從語(yǔ)言模型的解碼器中采樣生成多樣化的推理路徑集合;每條路徑可能導(dǎo)致不同的最終答案,因此我們通過(guò)對(duì)采樣的推理路徑進(jìn)行邊緣化,從最終答案集中找出最一致的答案。這種方法類似于人類的經(jīng)驗(yàn),如果多種不同的思考方式都能得出相同的答案,人們對(duì)最終答案的正確性會(huì)有更大的信心。與其他解碼方法相比,自我一致性避免了貪婪解碼的重復(fù)性和局部最優(yōu)性,同時(shí)減輕了單次采樣生成的隨機(jī)性。
圖 1:自一致性方法包含三個(gè)步驟:(1)使用鏈?zhǔn)剿季S(CoT)提示來(lái)提示語(yǔ)言模型;(2)將 CoT 提示中的“貪婪解碼”替換為從語(yǔ)言模型的解碼器中采樣,以生成多樣化的推理路徑集合;(3)對(duì)推理路徑進(jìn)行邊際化處理,并通過(guò)選擇最終答案集中最一致的答案進(jìn)行匯總。
(注釋:這張圖展示了“自一致性”方法在使用鏈?zhǔn)剿季S(Chain-of-Thought, CoT)提示中的應(yīng)用過(guò)程,用于提高語(yǔ)言模型在復(fù)雜推理任務(wù)中的準(zhǔn)確性。圖中通過(guò)三個(gè)步驟展示了自一致性方法如何優(yōu)化推理過(guò)程和最終答案。
1. Chain-of-Thought 提示
首先,通過(guò)鏈?zhǔn)剿季S提示方法,向語(yǔ)言模型(Language Model)提供一個(gè)問(wèn)題以及推理過(guò)程的提示。例如,問(wèn)題是:
- Q: 如果停車場(chǎng)里已經(jīng)有3輛車,又來(lái)了2輛車,那么停車場(chǎng)里有多少輛車?
- A: 停車場(chǎng)里已經(jīng)有3輛車,又來(lái)了2輛車?,F(xiàn)在3 + 2 = 5輛車。答案是5。
然后給出一個(gè)更復(fù)雜的問(wèn)題:
- Q: 珍妮的鴨子每天產(chǎn)16個(gè)蛋。她每天早上吃3個(gè)蛋做早餐,并用4個(gè)蛋烤松餅給她的朋友們。她把剩下的蛋以每個(gè)蛋2美元的價(jià)格賣掉。她每天能賺多少錢?
2. 貪心解碼(Greedy Decode)
傳統(tǒng)方法使用貪心解碼,即模型一次生成一個(gè)最可能的下一個(gè)詞,直到完成整個(gè)回答。在圖中,貪心解碼給出的答案是:
- 她每天用3 + 4 = 7個(gè)蛋。她把剩下的蛋以每個(gè)蛋2美元的價(jià)格賣掉,所以她每天賣7 * 2美元 = 14美元。答案是14美元。
但這個(gè)答案可能不是最優(yōu)的,因?yàn)樨澬慕獯a沒(méi)有探索其他可能的推理路徑。
3. 自一致性方法
3.1 生成多樣化的推理路徑
自一致性方法通過(guò)從語(yǔ)言模型的解碼器中采樣,生成一組多樣化的推理路徑,而不是單一的貪心解碼。例如,在圖中,生成了多個(gè)推理路徑:
- 路徑1:她有16 - 3 - 4 = 9個(gè)蛋剩下。所以她每天賺2美元 * 9個(gè)蛋 = 18美元。答案是18美元。
- 路徑2:這意味著她把剩下的蛋以每個(gè)2美元的價(jià)格賣掉,所以她每天賺2美元 * (16 - 4 - 3) = 26美元。答案是26美元。
- 路徑3:她每天早餐吃3個(gè)蛋,所以她有16 - 3 = 13個(gè)蛋剩下。然后她用4個(gè)蛋烤松餅,所以她有13 - 4 = 9個(gè)蛋剩下。所以她每天賺2美元 * 9個(gè)蛋 = 18美元。答案是18美元。
3.2 推理路徑的邊際化(Marginalize out Reasoning Paths)
在生成了多個(gè)推理路徑后,自一致性方法通過(guò)邊際化這些推理路徑來(lái)匯總最終的答案。即選擇最一致的答案作為最終答案。圖中顯示,答案“18美元”在多個(gè)路徑中出現(xiàn),因此被選擇為最終答案。
通過(guò)這種方法,自一致性方法可以更好地處理復(fù)雜的推理任務(wù),提供更準(zhǔn)確的答案。通過(guò)生成多樣化的推理路徑并選擇最一致的答案,這種方法克服了貪心解碼的局限性,提高了語(yǔ)言模型的推理能力和準(zhǔn)確性。)
自我一致性遠(yuǎn)比那些需要訓(xùn)練額外驗(yàn)證器(Cobbe等人,2021)或給定額外人工注釋以改進(jìn)生成質(zhì)量的重排序訓(xùn)練方法(Thoppilan等人,2022)更為簡(jiǎn)單。相反,自我一致性完全是無(wú)監(jiān)督的,可即插即用與預(yù)訓(xùn)練語(yǔ)言模型配合,無(wú)需額外的人工注釋,也不需要任何額外訓(xùn)練、輔助模型或微調(diào)。自我一致性也不同于典型的集成方法,后者需要訓(xùn)練多個(gè)模型并將每個(gè)模型的輸出匯總,自我一致性更像是在單一語(yǔ)言模型之上的“自集成”。
我們?cè)谒姆N不同規(guī)模的語(yǔ)言模型上,包括公開的UL2-20B(Tay等人,2022)和GPT-3-175B(Brown等人,2020),以及兩個(gè)密集激活的解碼器型語(yǔ)言模型LaMDA-137B(Thoppilan等人,2022)和PaLM-540B(Chowdhery等人,2022),評(píng)估了自我一致性在廣泛的算術(shù)和常識(shí)推理任務(wù)上的表現(xiàn)。在所有四個(gè)語(yǔ)言模型上,自我一致性在所有任務(wù)上都顯著超越了鏈?zhǔn)剿伎继崾?。特別是,當(dāng)與PaLM-540B或GPT-3結(jié)合使用時(shí),自我一致性在算術(shù)推理任務(wù)上達(dá)到了新的最佳水平,包括GSM8K(Cobbe等人,2021)(絕對(duì)準(zhǔn)確率提高17.9%)、SVAMP(Patel等人,2021)(+11.0%)、AQuA(Ling等人,2017)(+12.2%),以及在諸如StrategyQA(Geva等人,2021)(+6.4%)和ARC挑戰(zhàn)(Clark等人,2018)(+3.9%)等常識(shí)推理任務(wù)上。在額外的實(shí)驗(yàn)中,我們展示自我一致性能在添加鏈?zhǔn)剿伎伎赡軗p害性能的標(biāo)準(zhǔn)提示相比時(shí),穩(wěn)健地提升NLP任務(wù)的性能(Ye & Durrett, 2022)。我們也證明自我一致性顯著優(yōu)于采樣排序、波束搜索、基于集成的方法,并且對(duì)采樣策略和不完美提示具有魯棒性。
2、自一致性在多樣化推理路徑中的應(yīng)用
人類思考問(wèn)題的方式各不相同,這一點(diǎn)非常明顯。在需要深思熟慮的任務(wù)中,往往會(huì)有多種解決問(wèn)題的方法。我們提出,通過(guò)從語(yǔ)言模型的解碼器中進(jìn)行采樣,可以模擬這種過(guò)程。例如,如圖1所示,模型可以對(duì)一個(gè)數(shù)學(xué)問(wèn)題生成多個(gè)合理的回答,并且都得出正確的答案(輸出1和輸出3)。由于語(yǔ)言模型不是完美的推理工具,模型可能會(huì)產(chǎn)生錯(cuò)誤的推理路徑或在某個(gè)推理步驟中犯錯(cuò)(如輸出2),但這樣的解決方案較少能得出相同的答案。我們假設(shè),正確的推理過(guò)程,即使是多樣化的,最終答案的一致性往往高于錯(cuò)誤的過(guò)程。
我們利用這一直覺(jué),提出了以下自一致性方法。首先,用一組手動(dòng)編寫的鏈?zhǔn)剿季S示例(Wei等,2022)對(duì)語(yǔ)言模型進(jìn)行提示。接下來(lái),從語(yǔ)言模型的解碼器中采樣,生成一組多樣化的候選推理路徑。自一致性方法兼容大多數(shù)現(xiàn)有的采樣算法,包括溫度采樣(Ackley等,1985;Ficler & Goldberg,2017)、top-k采樣(Fan等,2018;Holtzman等,2018;Radford等,2019)和核采樣(Holtzman等,2020)。最后,通過(guò)邊際化采樣的推理路徑,選擇生成答案中最一致的作為最終答案。
更詳細(xì)地說(shuō),假設(shè)生成的答案ai 來(lái)自固定答案集ai∈ A,其中 i = 1, . . . , m 標(biāo)識(shí)從解碼器中采樣的m 個(gè)候選輸出。給定一個(gè)提示和一個(gè)問(wèn)題,自一致性方法引入一個(gè)額外的潛在變量 ri,它是表示第i個(gè)輸出中推理路徑的一系列標(biāo)記,然后結(jié)合生成 (ri, ai),其中 ri→ai,即生成推理路徑ri 是可選的,僅用于得出最終答案ai。例如,考慮圖1中的輸出3:前幾句話“她吃了3個(gè)蛋做早餐……所以她有9個(gè)蛋*2美元=18美元?!睒?gòu)成了 ri,而最后一句話中的答案18,即“答案是18美元”,則解析為 ai。
在從模型的解碼器中采樣多個(gè)(ri, ai)后,自一致性方法通過(guò)對(duì)ri進(jìn)行邊際化,采取多數(shù)投票來(lái)選擇答案,即 maxaΣmi=11(ai = a),或我們定義為最終答案集中最“一致”的答案。
在表1中,我們展示了在一組推理任務(wù)上使用不同答案聚合策略的測(cè)試準(zhǔn)確率。除了多數(shù)投票外,在聚合答案時(shí),也可以通過(guò) P(ri, ai| 提示, 問(wèn)題) 對(duì)每個(gè)(ri, ai)進(jìn)行加權(quán)。注意,為計(jì)算P(ri, ai| 提示, 問(wèn)題),我們可以采取模型生成 (ri, ai) 給定 (提示, 問(wèn)題) 的非歸一化概率,或者我們可以通過(guò)輸出長(zhǎng)度進(jìn)行歸一化的條件概率(Brown等,2020),即
其中 log P(tk | 提示, 問(wèn)題, t1, ..., tk-1)是在先前標(biāo)記的條件下生成第k 個(gè)標(biāo)記 tk的對(duì)數(shù)概率,K 是 (ri, ai)中標(biāo)記的總數(shù)。
在表1中,我們展示了直接對(duì)ai進(jìn)行多數(shù)投票的“未加權(quán)總和”方法與使用“歸一化加權(quán)總和”進(jìn)行聚合的準(zhǔn)確率非常相似。我們仔細(xì)觀察了模型的輸出概率,發(fā)現(xiàn)這是因?yàn)閷?duì)于每個(gè) (ri, ai),歸一化的條件概率 P(ri, ai| 提示, 問(wèn)題)非常接近,即語(yǔ)言模型認(rèn)為這些生成是“同樣可能的”。此外,當(dāng)聚合答案時(shí),表1中的結(jié)果顯示“歸一化”加權(quán)總和(即公式1)的準(zhǔn)確率遠(yuǎn)高于未歸一化的對(duì)應(yīng)方法。為了完整性,表1中還報(bào)告了“加權(quán)平均”方法的結(jié)果,即每個(gè)答案 a 得到的分?jǐn)?shù)為其加權(quán)總和除以Σmi=11(ai = a),這導(dǎo)致了更差的性能。
自一致性探索了開放式文本生成和具有固定答案的最佳文本生成之間的有趣空間。推理任務(wù)通常有固定答案,這就是為什么研究人員通??紤]貪心解碼方法(Radford等,2019;Wei等,2022;Chowdhery等,2022)。然而,我們發(fā)現(xiàn)即使期望的答案是固定的,引入推理過(guò)程中的多樣性也非常有益;因此我們利用采樣,作為常用于開放式文本生成的方法(Radford等,2019;Brown等,2020;Thoppilan等,2022),來(lái)實(shí)現(xiàn)這一目標(biāo)。需要注意的是,自一致性只能應(yīng)用于最終答案來(lái)自固定答案集的問(wèn)題,但原則上,如果能夠定義多個(gè)生成之間一致性的良好度量,這種方法可以擴(kuò)展到開放文本生成問(wèn)題,例如兩個(gè)答案是否一致或矛盾。
3、實(shí)驗(yàn)(略)
4、相關(guān)工作
語(yǔ)言模型中的推理。眾所周知,語(yǔ)言模型在第2類任務(wù)上存在困難,例如算術(shù)、邏輯和常識(shí)推理(Evans,2010)。以前的工作主要集中在改進(jìn)推理的專業(yè)方法上(Andor等人,2019;Ran等人,2019;Geva等人,2020;Pi?ekos等人,2021)。與以往的工作相比,自我一致性適用于廣泛的推理任務(wù),無(wú)需額外的監(jiān)督或微調(diào),同時(shí)仍然顯著提高了Wei等人(2022)提出的思維鏈提示方法的性能。
語(yǔ)言模型中的采樣和重新排序。在文獻(xiàn)中提出了多種語(yǔ)言模型的解碼策略,例如溫度采樣(Ackley等人,1985;Ficler和Goldberg,2017)、top-k采樣(Fan等人,2018;Holtzman等人,2018;Radford等人,2019)、核心采樣(Holtzman等人,2020)、最小貝葉斯風(fēng)險(xiǎn)解碼(Eikema和Aziz,2020;Shi等人,2022)和典型解碼(Meister等人,2022)。其他工作試圖在解碼過(guò)程中明確促進(jìn)多樣性(Batra等人,2012;Li等人,2016;Vijayakumar等人,2018)。重新排序是提高語(yǔ)言模型生成質(zhì)量的另一種常用方法(Adiwardana等人,2020;Shen等人,2021)。Thoppilan等人(2022)收集額外的人類注釋來(lái)訓(xùn)練一個(gè)重新排序器進(jìn)行響應(yīng)過(guò)濾。Cobbe等人(2021)訓(xùn)練一個(gè)“驗(yàn)證器”對(duì)生成的解決方案進(jìn)行重新排序,與僅僅微調(diào)語(yǔ)言模型相比,這在數(shù)學(xué)任務(wù)上的解決率有了顯著提高。Elazar等人(2021)通過(guò)擴(kuò)展預(yù)訓(xùn)練增加額外的一致性損失來(lái)提高事實(shí)知識(shí)提取的一致性。所有這些方法都需要額外訓(xùn)練一個(gè)重新排序器或收集額外的人類注釋,而自我一致性不需要額外的訓(xùn)練、微調(diào)或額外的數(shù)據(jù)收集。
提取推理路徑。一些以前的工作考慮了識(shí)別推理路徑的任務(wù)特定方法,例如構(gòu)建語(yǔ)義圖(Xu等人,2021a)、學(xué)習(xí)一個(gè)RNN在Wikipedia圖上檢索推理路徑(Asai等人,2020)、在數(shù)學(xué)問(wèn)題上用人類注釋的推理路徑進(jìn)行微調(diào)(Cobbe等人,2021)或用基于啟發(fā)式的偽推理路徑訓(xùn)練提取器(Chen等人,2019)。最近,推理過(guò)程中的多樣性的重要性已經(jīng)被注意到,但只通過(guò)任務(wù)特定的訓(xùn)練來(lái)利用,要么通過(guò)額外的QA模型在提取的推理路徑上(Chen等人,2019),要么通過(guò)在常識(shí)知識(shí)圖中引入潛在變量(Yu等人,2022)。與這些方法相比,自我一致性要簡(jiǎn)單得多,不需要額外的訓(xùn)練。我們提出的方法是簡(jiǎn)單地通過(guò)從解碼器中采樣將生成推理路徑和最終答案結(jié)合起來(lái),使用聚合來(lái)恢復(fù)最一致的答案,而不需要額外的模塊。
語(yǔ)言模型中的一致性。一些以前的工作表明,語(yǔ)言模型在對(duì)話(Adiwardana等人,2020)、解釋生成(Camburu等人,2020)和事實(shí)知識(shí)提?。‥lazar等人,2021)中可能會(huì)有不一致性。Welleck等人(2020)使用“一致性”來(lái)指代在遞歸語(yǔ)言模型中生成無(wú)限長(zhǎng)度序列。Nye等人(2021)通過(guò)添加一個(gè)受System 2啟發(fā)的邏輯推理模塊來(lái)提高System 1模型樣本的邏輯一致性。在本文中,我們關(guān)注一個(gè)稍微不同概念的“一致性”,即利用多樣化推理路徑中的答案一致性來(lái)提高準(zhǔn)確性。
5、結(jié)論與討論
我們介紹了一種稱為自我一致性的簡(jiǎn)單而有效的方法,并觀察到它顯著提高了在一系列算術(shù)和常識(shí)推理任務(wù)中的準(zhǔn)確性,涵蓋了四種不同規(guī)模的大型語(yǔ)言模型。除了準(zhǔn)確性的提升,自我一致性在執(zhí)行推理任務(wù)時(shí)收集理由、提供不確定性估計(jì)以及改善語(yǔ)言模型輸出的校準(zhǔn)時(shí)也具有用處。
自我一致性的一個(gè)限制是它會(huì)增加計(jì)算成本。在實(shí)踐中,人們可以嘗試少量路徑(例如,5或10條)作為一個(gè)起點(diǎn),在不增加太多成本的情況下實(shí)現(xiàn)大部分收益,因?yàn)樵诖蠖鄶?shù)情況下性能會(huì)迅速飽和(見圖2)。作為未來(lái)工作的一部分,可以使用自我一致性生成更好的監(jiān)督數(shù)據(jù)來(lái)微調(diào)模型,以便模型在微調(diào)后的單次推理運(yùn)行中給出更準(zhǔn)確的預(yù)測(cè)。此外,我們觀察到語(yǔ)言模型有時(shí)可能會(huì)生成不正確或無(wú)意義的推理路徑(例如,表4中的StrategyQA示例,兩個(gè)人口數(shù)字并不完全正確),需要進(jìn)一步的工作來(lái)更好地基礎(chǔ)化模型的理由生成。
Wang X, Wei J, Schuurmans D, et al. Self-consistency improves chain of thought reasoning in language models[J]. arXiv preprint arXiv:2203.11171, 2022.
Google Research, Brain Team
本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:AIRoobt
原文鏈接:??https://mp.weixin.qq.com/s/RTQP54E9m2_HXVmlDVVrxA??
