Nature:AI模型越大越好嗎?
?現(xiàn)在,生成式人工智能模型變得越來越大了,所以更大就意味著更好嗎?
非也?,F(xiàn)在,一些科學(xué)家提議,應(yīng)該采用更精簡、更節(jié)能的系統(tǒng)。
文章地址:https://www.nature.com/articles/d41586-023-00641-w
搞不定數(shù)學(xué)的語言模型
最近技術(shù)行業(yè)的寵兒ChatGPT,在面對需要推理才能回答的數(shù)學(xué)問題時,表現(xiàn)往往不佳。
比如這個問題「平行于y = 4 x + 6的直線穿過(5, 10)。這條線與y軸的交點的y坐標(biāo)是多少?」,它往往答不對。
在一項針對推理能力的早期測試中,ChatGPT 在回答中學(xué)水平的MATH數(shù)據(jù)集樣本時,得分僅為26(%)。
這當(dāng)然在我們的意料之中,給定輸入文本后,ChatGPT只是根據(jù)訓(xùn)練數(shù)據(jù)集的單詞、符號和句子的統(tǒng)計規(guī)律,生成新文本。
僅僅學(xué)一下語言模式,當(dāng)然不可能讓語言模型學(xué)會模仿數(shù)學(xué)推理。
但其實,早在2022年6月,谷歌創(chuàng)建的名為Minerva的大語言模型就已經(jīng)打破了這個「魔咒」。
Minerva在MATH數(shù)據(jù)集(2)中的問題得分為50% ,這一結(jié)果令研究人員大為震驚。
Minerva答對了一道「MATH」數(shù)據(jù)集里的中學(xué)數(shù)學(xué)問題
微軟研究院的的機(jī)器學(xué)習(xí)專家Sébastien Bubeck說,圈內(nèi)人都震驚了,對此議論紛紛。
Minerva的優(yōu)勢,當(dāng)然是因為它接受過數(shù)學(xué)文本的培訓(xùn)。
但谷歌的研究提出了該模型表現(xiàn)如此出色的另一個重要原因——龐大的規(guī)模。它的大小大約是ChatGPT的三倍。
Minerva 的結(jié)果暗示了一些研究人員長期以來一直懷疑的事情:訓(xùn)練更大的LLM并為它們提供更多數(shù)據(jù),可以使它們僅通過模式識別,就能解決本應(yīng)需要推理的任務(wù)。
如果真的是這樣,研究人員表示,這種「越大越好」的策略可能會為強(qiáng)大的人工智能提供一條途徑。
但這個論點顯然值得懷疑。
LLM仍然會犯明顯的錯誤,一些科學(xué)家認(rèn)為,更大的模型只是在回答訓(xùn)練數(shù)據(jù)相關(guān)范圍內(nèi)的查詢上變得更好,并不能獲得回答全新問題的能力。
這場辯論現(xiàn)在正在人工智能的前沿如火如荼地展開。
商業(yè)公司已經(jīng)看到,使用更大的AI模型,就可以獲得更好的結(jié)果,因此他們正在推出越來越大的LLM——每個LLM 都需要花費(fèi)數(shù)百萬美元來訓(xùn)練和運(yùn)行。
但是這些模型有很大的缺點。除了它們的輸出可能會不可信、因而加劇錯誤信息的傳播之外,它們價格實在太昂貴了,并且會消耗大量的能量。
評者認(rèn)為,大型LLM永遠(yuǎn)無法模仿或獲得使他們能始終如一地回答推理問題的技能。
相反,一些科學(xué)家說,更小、更節(jié)能的AI才能取得進(jìn)步,他們的觀點部分受到了大腦學(xué)習(xí)和建立聯(lián)系方式的啟發(fā)。
模型更大就更好嗎?
ChatGPT和Minerva等大語言模型是巨大的分層排列的計算單元網(wǎng)絡(luò)(也稱為人工神經(jīng)元)。
LLM 的大小是根據(jù)它有多少參數(shù)來衡量的,而參數(shù)量描述了神經(jīng)元之間連接強(qiáng)度的可調(diào)值。
訓(xùn)練這樣的網(wǎng)絡(luò),就需要要求它預(yù)測已知句子的掩碼部分并調(diào)整這些參數(shù),以便算法下次做得更好。
對數(shù)十億個人類書寫的句子重復(fù)執(zhí)行這個操作,神經(jīng)網(wǎng)絡(luò)就會學(xué)習(xí)模擬人類書寫語言方式的內(nèi)部表征。
在這個階段,LLM 被認(rèn)為是經(jīng)過預(yù)訓(xùn)練的:它的參數(shù)捕獲了它在訓(xùn)練期間看到的書面語言的統(tǒng)計結(jié)構(gòu),包括文本中的所有事實、偏見和錯誤。然后可以根據(jù)專門數(shù)據(jù)對它「微調(diào)」。
例如,為了制作Minerva,研究人員從谷歌的Pathways Language Model (PaLM) 入手,該模型擁有5400億個參數(shù),并在7800億個token的數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。
token可以是一個詞、數(shù)字或一些信息單元;在PaLM的例子中,token是從英語和多語言網(wǎng)絡(luò)文檔、書籍和代碼中收集的。Minerva是PaLM對來自科學(xué)論文和數(shù)學(xué)網(wǎng)頁的數(shù)百億個token進(jìn)行微調(diào)的結(jié)果。
Minerva可以回答「小于520的30的最大倍數(shù)是多少」這樣的問題。
LLM似乎在按步驟思考,但它所做的只是將問題轉(zhuǎn)化為tokne序列,生成統(tǒng)計上合理的下一個token,將其附加到原始序列,生成另一個token,等等。這個過程就被稱為推理。
谷歌研究人員使用了具有80億、620億和5400億參數(shù)的底層預(yù)訓(xùn)練PaLM模型,對Minerva的三種尺寸進(jìn)行了微調(diào)。Minerva的性能隨著規(guī)模的擴(kuò)大而提高。
在整個MATH數(shù)據(jù)集上,最小模型的準(zhǔn)確率為25%,中型模型達(dá)到43%,最大模型突破50%大關(guān)。
最大的模型也使用了最少的微調(diào)數(shù)據(jù)——它只對260億個token進(jìn)行了微調(diào),而最小的模型則微調(diào)了1640億個token。
但是最大的模型花了一個月的時間進(jìn)行微調(diào),專用硬件的算力是最小模型所用算力的八倍,而最小模型的微調(diào)時間僅為兩周。
理想情況下,最大的模型應(yīng)該在更多token上進(jìn)行微調(diào)。谷歌研究院Minerva團(tuán)隊的成員Ethan Dyer說,這本可以帶來更好的表現(xiàn)。但團(tuán)隊認(rèn)為計算費(fèi)用不可行。
規(guī)?;?yīng)
最大的Minerva模型表現(xiàn)最好,這與Scaling Law(規(guī)?;?yīng))的研究是一致的——這些規(guī)律決定了性能如何隨著模型大小的增加而提高。
2020年的一項研究表明,模型在給定以下三項之一時表現(xiàn)更好:更多參數(shù)、更多訓(xùn)練數(shù)據(jù)或更多「計算」(訓(xùn)練期間執(zhí)行的計算操作數(shù))。
性能根據(jù)冪律縮放,這意味著它會隨著參數(shù)量的增加而提高。
然而,研究人員并不清楚其中的原因?!高@些規(guī)律純粹是經(jīng)驗主義的,」加拿大蒙特利爾大學(xué)、 Mila- Quebec人工智能研究所的計算機(jī)科學(xué)家Irina Rish說。
為了獲得最佳結(jié)果,2020年的研究建議,隨著訓(xùn)練數(shù)據(jù)增加一倍,模型大小應(yīng)增加五倍。去年的工作對此略有修改。
今年3月,DeepMind認(rèn)為,最好同時擴(kuò)大模型規(guī)模和訓(xùn)練數(shù)據(jù),而且在更多數(shù)據(jù)上訓(xùn)練的較小模型比在較少數(shù)據(jù)上訓(xùn)練的較大模型表現(xiàn)更好。
例如,DeepMind的Chinchilla模型有700億個參數(shù),并在1.4萬億個token上進(jìn)行了訓(xùn)練,而2800億參數(shù)的Gopher模型在3000億個token上進(jìn)行了訓(xùn)練。在隨后的評估中,Chinchilla的表現(xiàn)優(yōu)于Gopher。
在2月,Meta的科學(xué)家基于這一概念構(gòu)建了名為LLaMA的小參數(shù)模型,該模型訓(xùn)練了多達(dá)1.4萬億個token。
研究人員表示,LLaMA的130億參數(shù)版本優(yōu)于ChatGPT的前身GPT-3(1750 億參數(shù)),而650億參數(shù)的版本比起 Chinchilla甚至PaLM,都更有競爭力。
去年10月,蒙特利爾麥吉爾大學(xué)的Ethan Caballero與Rish等人報告稱,他們發(fā)現(xiàn)了規(guī)模與性能之間更復(fù)雜的關(guān)系——在某些情況下,多重冪律可以控制性能如何隨模型大小變化。
例如,在一個擬合一般方程的假設(shè)場景中,性能首先逐漸提高,然后隨著模型的大小而更快地提高,但隨著參數(shù)數(shù)量的繼續(xù)增加,性能會略有下降,然后再次增加。這種復(fù)雜關(guān)系的特征取決于每個模型的細(xì)節(jié)及其訓(xùn)練方式。
最終,研究人員希望能夠在任何特定的LLM擴(kuò)大規(guī)模時提前預(yù)測這一點。
一項單獨的理論發(fā)現(xiàn)也支持更大模型的驅(qū)動——機(jī)器學(xué)習(xí)的「魯棒性法則」,這個法則由Bubeck和他的同事在2021年提出。
如果一個模型的答案保持一致,盡管它的輸入有小的擾動,那么這個模型就是穩(wěn)健的。
而Bubeck和他的同事從數(shù)學(xué)上證明,增加模型中的參數(shù)數(shù)量會提高穩(wěn)健性,從而提高泛化能力。
Bubeck說,規(guī)律證明擴(kuò)大規(guī)模對于泛化是必要的,但還不夠。盡管如此,它仍被用來證明轉(zhuǎn)向更大模型的合理?!肝艺J(rèn)為這是一件合理的事情?!?/p>
Minerva還利用了一項名為思維鏈提示的關(guān)鍵創(chuàng)新。用戶在問題前加上文本前綴,包括幾個問題和解決方案的示例,以及導(dǎo)致答案的推理(這就是典型的思維鏈)。
在推理過程中,LLM會從這個上下文中獲取線索,并提供一個看起來像推理的循序漸進(jìn)的答案。
這不需要更新模型的參數(shù),因此不涉及微調(diào)所需的額外計算能力。
僅在具有超過1000億個參數(shù)的LLM中,才會出現(xiàn)對思維鏈提示做出響應(yīng)的能力。
谷歌研究院的Blaise Agüera y Arcas說,這些發(fā)現(xiàn)幫助更大的模型根據(jù)經(jīng)驗縮放定律進(jìn)行改進(jìn)?!父蟮哪P蜁絹碓胶??!?/p>
合理的擔(dān)憂
谷歌的人工智能研究員Fran?ois Chollet是懷疑論者之一,他們認(rèn)為無論LLM變得多大,他們都永遠(yuǎn)無法具備足夠好的推理(或模仿推理)能力來可靠地解決新問題。
他說,LLM似乎只通過使用它以前遇到過的模板來推理,無論是在訓(xùn)練數(shù)據(jù)中還是在提示中。「它不能即時理解它以前沒有見過的東西?!?/p>
或許,LLM能做的最好的事,就是吸收大量的訓(xùn)練數(shù)據(jù),以至于語言的統(tǒng)計模式本身就可以讓他們用非常接近看到答案的方式,來回答問題。
然而,Agüera y Arcas認(rèn)為,LLM似乎確實獲得了一些他們沒有專門培訓(xùn)的能力,這些能力令人驚訝。
尤其是顯示一個人是否具有所謂心智理論的測試,這個測試能夠理論化或衡量他人的心理狀態(tài)。
比如,愛麗絲把眼鏡放在抽屜里,然后鮑勃在愛麗絲不知道的情況下將眼鏡藏在墊子下。愛麗絲會先去哪里找她的眼鏡?
問一個孩子這個問題,是為了測試他們是否理解愛麗絲有自己的信念,這些信念可能與孩子所知道的不一致。
Agüera y Arcas在他對谷歌的另一個LLM LaMDA的測試中,發(fā)現(xiàn)LaMDA在這類更擴(kuò)展的對話中,會做出正確的響應(yīng)。
對他來說,這表明LLM有能力在內(nèi)部模擬他人的意圖。
Agüera y Arcas說:「這些除了預(yù)測序列什么都不做的模型,已經(jīng)開發(fā)了一系列非凡的能力,包括心智理論。
但他承認(rèn),這些模型容易出錯,而且他也不確定單獨改變規(guī)模是否足以進(jìn)行可靠的推理,盡管這似乎有必要。
谷歌研究院的Blaise Agüera y Arcas在博客中記錄了他與LaMDA的對話。Agüera y Arcas認(rèn)為這是一次令人印象深刻的交流,LaMDA似乎能夠始終如一地模擬故事中兩個對話者知道和不知道的事情,很明顯,這就是對心智理論的模仿。
然而,Chollet說,即使LLM得到了正確的答案,也沒有涉及理解。
「當(dāng)你稍微探究一下,就會立即發(fā)現(xiàn)它是空的。ChatGPT沒有它所談?wù)搩?nèi)容的模型。就仿佛你正在觀看木偶戲,并且相信木偶還活著?!?/p>
到目前為止,LLM仍然會犯人類永遠(yuǎn)不會犯的荒謬錯誤,Melanie Mitchell說。她在Santa Fe研究所研究人工智能系統(tǒng)中的概念抽象和類比。
這讓人們很擔(dān)憂,在沒有護(hù)欄的情況下將LLM釋放到社會中是否安全。
Mitchell 補(bǔ)充說,對于LLM是否能夠解決真正新的、未見過的問題,有一個難題,即我們沒法全面測試這種能力。
「我們目前的基準(zhǔn)還不夠,」她說?!杆鼈儧]有系統(tǒng)地探索事物。我們還不知道該怎么做?!?/p>
Chollet 提倡他設(shè)計的抽象推理測試,它被稱為抽象推理語料庫。
因規(guī)模而生的問題
但問題是,訓(xùn)練大型語言模型所涉及的數(shù)據(jù)集、計算能力和費(fèi)用限制了它們的發(fā)展。目前來看,只有擁有超大計算資源的公司才能做到。
比如,OpenAI在GPT-3的訓(xùn)練上,預(yù)計花費(fèi)了超過400萬美元,而為了維持ChatGPT的運(yùn)轉(zhuǎn),每個月可能還要花費(fèi)數(shù)百萬美元。
于是,各國政府紛紛開始介入,希望由此擴(kuò)大自己在這個領(lǐng)域的優(yōu)勢。
去年6月,一個由大約1000名學(xué)術(shù)志愿者組成的國際團(tuán)隊,在法國政府、Hugging Face和其他機(jī)構(gòu)的資助下,用價值700萬美元的計算時間,訓(xùn)練了參數(shù)為1760億的BLOOM模型。
而在11月,美國能源部也將自己的超級計算授權(quán)給了一個研究大模型項目。據(jù)稱,團(tuán)隊計劃訓(xùn)練一個類似Chinchilla的700億參數(shù)的模型。
不過,無論是誰來訓(xùn)練,LLM對電力的消耗都是不容小覷的。
谷歌表示,在大約兩個月的時間里,訓(xùn)練PaLM花費(fèi)了大約3.4千兆瓦時,這相當(dāng)于大約300個美國家庭一年的能源消耗。
雖然谷歌宣稱自己用的89%就是清潔能源,但對整個行業(yè)的調(diào)查顯示,大多數(shù)的訓(xùn)練都是使用主要由化石燃料供電的電網(wǎng)。
更小,更聰明?
從這個角度來看,研究人員迫切地需要減少LLM的能源消耗——使神經(jīng)網(wǎng)絡(luò)更小、更有效,也許還能更聰明。
除了訓(xùn)練LLM的能源成本(雖然很可觀,但也是一次性的),推理所需的能源,會隨著用戶數(shù)量的增加而激增。比如,BLOOM模型在谷歌云平臺上部署的18天里,共回答了230,768次查詢,平均功率為1,664瓦。
相比而言,我們自己的大腦比任何LLM都要復(fù)雜和大得多,有860億個神經(jīng)元和大約100萬億個突觸連接,但功率只有大約20到50瓦。
于是,一些研究人員便希望通過對大腦的模仿來實現(xiàn)讓模型更小、更智能、更高效的愿景。
從本質(zhì)上講,LLM是「前饋」網(wǎng)絡(luò),這意味著信息是單向流動的:從輸入端,通過LLM的各層,到輸出端。
但大腦卻并非如此。比如,在人類的視覺系統(tǒng)中,神經(jīng)元除了會將接收到的信息正向傳輸進(jìn)大腦外,還有反饋連接,使信息在神經(jīng)元之間以相反的方向傳遞。在這其中,反饋連接的數(shù)量可能是前饋連接的十倍。
在人工神經(jīng)網(wǎng)絡(luò)中,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)也同時包含了前饋和反饋連接。與只有前饋網(wǎng)絡(luò)的LLM不同,RNN可以辨別出數(shù)據(jù)中隨時間變化的模式。不過,RNN很難訓(xùn)練,而且速度很慢,因此很難將其擴(kuò)展到LLM所具有的規(guī)模上。
目前,一些使用小型數(shù)據(jù)集的研究已經(jīng)表明,具有脈沖神經(jīng)元的RNN可以勝過標(biāo)準(zhǔn)的RNN,而且在理論上,計算效率也要高出三個數(shù)量級。
然而,只要這種脈沖網(wǎng)絡(luò)是在軟件中模擬的,它們就不能真正地實現(xiàn)效率的提升(因為模擬它們的硬件仍然會消耗能量)。
與此同時,研究人員正在試驗不同的方法,使現(xiàn)有的LLM更加節(jié)能。
2021年12月,DeepMind提出了基于檢索的語言模型框架Retro。
Retro主要模仿大腦在學(xué)習(xí)時不光利用當(dāng)下的知識,還會利用到記憶的檢索這一機(jī)制。其框架是先準(zhǔn)備一個大規(guī)模的文本數(shù)據(jù)集(充當(dāng)大腦的記憶),通過kNN算法找到輸入句子的n個最近鄰句子(檢索記憶)。
把輸入的句子和檢索到的句子經(jīng)過Transformer編碼后,再進(jìn)行Cross-Attention,這樣模型就可以同時利用輸入句子中的信息和記憶信息來完成各種NLP任務(wù)。
以往模型的超大參數(shù)量主要是為了保存住訓(xùn)練數(shù)據(jù)中的信息,當(dāng)使用這種基于檢索的框架后,模型的參數(shù)量不用特別大就可以包含更多的文本信息,自然而然就會加快模型的運(yùn)行速度,并且還不會損失太多性能。
這種方式還能節(jié)省模型訓(xùn)練時的電費(fèi),環(huán)保女孩看了都點贊!
實驗結(jié)果顯示,一個75億個參數(shù)的大語言模型,加上一個2萬億個token的數(shù)據(jù)庫,可以勝過參數(shù)多25倍的模型。研究人員寫道,這是一個「在我們尋求建立更強(qiáng)大的語言模型時,比原始參數(shù)縮放更有效的方法」。
在同一個月,谷歌的研究人員提出了另一種在規(guī)模上提高能源效率的方法。
這個擁有1.2萬億參數(shù)的稀疏通用語言模型GLaM,在內(nèi)部有著64個較小的神經(jīng)網(wǎng)絡(luò)。
在推理過程中,模型只使用兩個網(wǎng)絡(luò)來完成任務(wù)。也就是說,只用了一萬多億個參數(shù)中的大約8%。
谷歌表示,GLaM使用的計算資源與訓(xùn)練GPT-3所需的相同,但由于訓(xùn)練軟件和硬件的改進(jìn),能耗只有后者的1/3。而推理所需的計算資源,則是GPT-3的一半。此外,在相同數(shù)量的數(shù)據(jù)上進(jìn)行訓(xùn)練時,GLaM的表現(xiàn)也要優(yōu)于GPT-3。
然而,為了進(jìn)一步的改進(jìn),即使是這些更節(jié)能的LLM似乎也注定要變得更大,使用更多的數(shù)據(jù)和計算。
參考資料:?
https://www.nature.com/articles/d41586-023-00641-w