不想炸薯條的Ilya和不送GPU的英偉達,Hinton最新專訪:道路千萬條,安全第一條
從谷歌離職一年之際,「人工智能教父」Hinton接受了采訪。
——也許是因為徒弟Ilya終于被從核設(shè)施中放了出來?(狗頭)
視頻地址:https://www.youtube.com/watch?v=tP-4njhyGvo
當(dāng)然了,采訪教父的小伙子也非等閑之輩,Joel Hellermark創(chuàng)立的Sana已經(jīng)融資超過8000萬美元,
他本人也曾因為在推進AI方面的工作,而入選福布斯30 under 30(30位30歲以下精英)。最近,《衛(wèi)報》又將Joel評為35歲以下改變世界的前10名。
——這個13歲學(xué)編程、16歲開公司的小天才,與真正的科學(xué)家之間,又能碰撞出怎樣的火花呢?
下面,讓我們跟隨兩人的對話,一同探尋AI教父的心路歷程,以及幼年Ilya的一些趣事。
劍橋白學(xué)了
為了弄清楚人類的大腦如何工作,年輕的教父首先來到劍橋,學(xué)習(xí)了生理學(xué),而后又轉(zhuǎn)向哲學(xué),但最終也沒有得到想要的答案。
「That was extremely disappointing」。
于是,Hinton去了愛丁堡,開始研究AI,通過模擬事物的運行,來測試理論。
你在愛丁堡時候的直覺是什么?
「在我看來,必須有一種大腦學(xué)習(xí)的方式,顯然不是通過將各種事物編程到大腦中,然后使用邏輯推理。我們必須弄清楚大腦如何學(xué)會修改神經(jīng)網(wǎng)絡(luò)中的連接,以便它可以做復(fù)雜的事情?!?/span>
「我總是受到關(guān)于大腦工作原理的啟發(fā):有一堆神經(jīng)元,它們執(zhí)行相對簡單的操作,它們是非線性的,它們收集輸入,進行加權(quán),然后根據(jù)加權(quán)輸入給出輸出。問題是,如何改變這些權(quán)重以使整個事情做得很好?」
Ilya:我不想炸薯條了
某個星期日,Hinton坐在辦公室,突然有人在外面哐哐敲門(原話:that's sort of an urgent knock)。
Hinton去開門,門外的年輕人正是Ilya。
Ilya:這個夏天我在炸薯條,實在是干夠了,還不如來你實驗室干活。
Hinton:你應(yīng)該先預(yù)約,然后我們談一下。
Ilya:就現(xiàn)在怎么樣?
——Hinton表示,這就是Ilya的性格特點。
Hinton給了Ilya一篇關(guān)于反向傳播的論文,兩人于一周后再次見面。
Ilya:I didn't understand it.
Hinton:?這不就是鏈式法則嗎,小伙子你怎么回事?
Ilya:不是那個,我不明白你為啥不用個更好的優(yōu)化器來處理梯度?
——Hinton的眼睛亮了一下,這是他們花了好幾年時間在思考的問題。
Hinton表示,Ilya總是有很好的直覺,他從小就對人工智能感興趣,并且顯然很擅長數(shù)學(xué)。
Hinton還記得,有一次的項目比較復(fù)雜,涉及到大量的代碼重組,以進行正確的矩陣乘法。
Ilya受夠了折磨,于是有一天跑過來找Hinton,
Ilya:我要為Matlab寫一個接口,自動做這些轉(zhuǎn)換。
Hinton:不行,Ilya,那需要你一個月的時間。我們必須繼續(xù)這個項目,不要分散注意力。
Ilya:沒關(guān)系,我今天早上寫完了。
Ilya的直覺
Ilya很早就有一種直覺:只要把神經(jīng)網(wǎng)絡(luò)模型做大一點,就會得到更好的效果。Hinton認為這是一種逃避,必須有新的想法或者算法才行。
但事實證明,Ilya是對的。
新的想法確實重要,比如像Transformer這樣的新架構(gòu)。但實際上,當(dāng)今AI的發(fā)展主要源于數(shù)據(jù)的規(guī)模和計算的規(guī)模。
或許正是因為Ilya的這種直覺,才有了后來OpenAI的驚人成就。
當(dāng)時過境遷、滄海桑田,光陰讓Ilya變?yōu)榱顺墒斓拇笕耍瑫r也帶走了他的頭發(fā)。
模型真的能思考
2011年,Hinton帶領(lǐng)Ilya和另一名研究生James Martins,發(fā)表了一篇字符級預(yù)測的論文。他們使用維基百科訓(xùn)練模型,嘗試預(yù)測下一個HTML字符。
模型首次采用了嵌入(embedding)和反向傳播,將每個符號轉(zhuǎn)換為嵌入,然后讓嵌入相互作用以預(yù)測下一個符號的嵌入,并通過反向傳播來學(xué)習(xí)數(shù)據(jù)的三元組。
當(dāng)時的人們不相信模型能夠理解任何東西,但實驗結(jié)果令人震驚,就像是模型已經(jīng)學(xué)會了思考。
預(yù)測下一個符號,與傳統(tǒng)的自動完成功能有很大的不同。傳統(tǒng)的自動完成功能會存儲一組三元組單詞。然后,你會看到不同的單詞出現(xiàn)在第三位的頻率,這樣你就可以進行預(yù)測。
但現(xiàn)在,情況已經(jīng)不同了。要預(yù)測下一個符號,你必須理解所說的內(nèi)容。我認為通過預(yù)測下一個符號可以強迫模型進行理解,它的理解方式與我們非常相似。
舉個例子,如果你問GPT-4,為什么堆肥堆像原子彈?大多數(shù)人都無法回答這個問題,因為他們認為原子彈和堆肥堆是完全不同的東西。
但GPT-4會告訴你,兩者能量尺度不同,時間尺度也不同。但相同的是,當(dāng)堆肥堆變熱時,它會更快地產(chǎn)生熱量;而當(dāng)原子彈產(chǎn)生更多的中子時,其產(chǎn)生中子的速度也會隨之加快。
——這就引出了鏈式反應(yīng)的概念。通過這種理解,所有的信息都被壓縮到模型權(quán)重中。
在這種情況下,模型將能夠?qū)ξ覀儚奈匆娺^的各種類比進行處理,這就是人類能從模型中獲得創(chuàng)造力的地方。
大型語言模型所做的是尋找共同的結(jié)構(gòu),使用共同的結(jié)構(gòu)對事物進行編碼,這樣效率更高。
超越訓(xùn)練數(shù)據(jù)
在與李世石的那場著名比賽中,AlphaGo在第37步做出了所有專家都認為是錯誤的舉動,——但后來被證明是AI絕妙的創(chuàng)造力。
AlphaGo的不同之處在于它使用了強化學(xué)習(xí),使它能夠超越當(dāng)前狀態(tài)。它從模仿學(xué)習(xí)開始,觀察人類如何玩游戲,然后通過自我對弈,逐漸超越了訓(xùn)練數(shù)據(jù)。
Hinton還舉了訓(xùn)練神經(jīng)網(wǎng)絡(luò)識別手寫數(shù)字的例子,他把訓(xùn)練數(shù)據(jù)的一半答案故意替換成錯誤的(誤差率50%),但是通過反向傳播的訓(xùn)練,最終模型的誤差率會降到5%或更低。
這就像是聰明的學(xué)生最終會超過自己的老師。大型神經(jīng)網(wǎng)絡(luò)實際上具有超越訓(xùn)練數(shù)據(jù)的能力,這是大多數(shù)人未曾意識到的。
此外,Hinton認為當(dāng)今的多模態(tài)模型將帶來很大的改變。
僅從語言角度來看,模型很難理解一些空間事物。但是,當(dāng)模型成為多模態(tài)時(既能接收視覺信息,又能伸手抓東西,能拿起物體并翻轉(zhuǎn)),它就會更好地理解物體。多模態(tài)模型需要更少的語言,學(xué)習(xí)起來會更容易。
預(yù)測下一個視頻幀、預(yù)測下一個聲音,我們的大腦或許就是這樣學(xué)習(xí)的。
英偉達不送GPU
Hinton是最早使用GPU處理神經(jīng)網(wǎng)絡(luò)計算的人之一。
2006年,一位研究生建議Hinton使用GPU來計算矩陣乘法。他們最開始使用游戲GPU,發(fā)現(xiàn)運算速度提高了30倍。之后Hinton購買了一個配備四個GPU的Tesla系統(tǒng)。
2009年,Hinton在NIPS會議上發(fā)表了演講,告訴在場的一千名機器學(xué)習(xí)研究人員:「你們都應(yīng)該去購買英偉達的GPU,這將是未來的趨勢,你們需要GPU來進行機器學(xué)習(xí)。」
然后,Hinton給英偉達發(fā)了一封郵件,說我已經(jīng)告訴一千名機器學(xué)習(xí)研究人員去購買你們的顯卡,你們能否免費給我一個?
——英偉達并沒有回復(fù)。
很久以后,Hinton把這個故事告訴老黃,老黃趕緊送了一個。
硬件模擬神經(jīng)網(wǎng)絡(luò)
在谷歌的最后幾年里,Hinton一直在思考如何嘗試進行模擬計算。這樣,我們就可以使用跟大腦一樣的功率(30瓦),來運行大型語言模型,而不是一兆瓦的功率。
每個人的大腦都不相同,所以在這種低功耗的模擬計算中,每個硬件都會有所不同,各個神經(jīng)元的精確屬性也不同。
人終有一死,大腦中的權(quán)重在人死后就會丟失,但數(shù)字系統(tǒng)是不朽的,權(quán)重可以被存儲起來,計算機壞了也不影響。
假設(shè)有一大批數(shù)字系統(tǒng),它們從相同的權(quán)重開始,各自進行微量的學(xué)習(xí),然后共享權(quán)重,這樣它們都能知道其他系統(tǒng)學(xué)到了什么。然而,我們?nèi)祟悷o法做到這一點,因此在知識共享方面,數(shù)字系統(tǒng)遠勝于我們。
快速權(quán)重
到目前為止,神經(jīng)網(wǎng)絡(luò)模型都只有兩個時間尺度:接收輸入時的快速變化,和調(diào)整權(quán)重時的緩慢變化。
然而在大腦中,權(quán)重的時間尺度有很多。
比如我說了一個詞「黃瓜」,五分鐘后,你戴上耳機,聽到很多噪音和一些模糊的單詞,但你能更好地識別「黃瓜」這個詞,因為我五分鐘前說過這個詞。
大腦中的這些知識是如何存儲的呢?顯然是突觸的暫時變化,而不是神經(jīng)元在重復(fù)「黃瓜」這個詞——Hinton稱之為快速權(quán)重。
Hinton的擔(dān)憂
Hinton認為,科學(xué)家應(yīng)該做一些有助于社會的事情,當(dāng)你被好奇心驅(qū)使時,你會做最好的研究。但是,這些事情會帶來很多好處,也可能會造成很多傷害,我們需要關(guān)注它們對社會的影響。
比如壞人使用AI做壞事,將人工智能用于殺手機器人,操縱公眾輿論或進行大規(guī)模監(jiān)視。這些都是非常令人擔(dān)憂的事情。
而人工智能領(lǐng)域的發(fā)展不太可能放緩,因為是它是國際性的,即使一個國家放緩,其他國家也不會。
這種擔(dān)憂也讓小編想起了與Hinton一脈相承的Ilya。
從多倫多的實驗室,到OpenAI的核設(shè)施,Ilya一直牢記恩師的教誨:道路千萬條,安全第一條。監(jiān)管不規(guī)范,教父兩行淚。