LeCun最新專訪:為什么物理世界終將成為LLM的「死穴」?
在人工智能領(lǐng)域,很少有像 Yann LeCun 這樣的學(xué)者,在 65 歲的年齡還能高度活躍于社交媒體。
一直以來,Yann LeCun 都是以「直言不諱的批評者」形象活躍于人工智能領(lǐng)域。他始終支持開源,并帶領(lǐng) Meta 的團隊推出了占據(jù)如今開源大模型領(lǐng)域半壁江山的 Llama 2;他對很多人深感恐慌的人工智能末日論不以為然,堅信 AGI 的到來一定是件好事……
近日,LeCun 又一次來到 Lex Fridman 的播客,展開了一場接近三個小時的對談,內(nèi)容涉及開源的重要性、LLM 的局限性、為什么人工智能末日論者是錯誤的,以及通向 AGI 的道路等話題。
觀看頁面:https://youtu.be/5t1vTLU7s40?feature=shared
我們從這場播客內(nèi)容中精選了一些有參考價值的觀點,以下是相關(guān)內(nèi)容:
LLM 的局限性
Lex Fridman:你說過,自回歸 LLM 并不是我們在超人類智能方面取得進展的方式。為什么它們不能帶我們一路走下去?
Yann LeCun:出于多種原因。首先,智能行為有許多特征。例如,理解世界的能力、理解物理世界的能力、記憶和檢索事物的能力、持久性記憶、推理能力和計劃能力。這是智能系統(tǒng)或?qū)嶓w、人類、動物的四個基本特征。LLM 無法做到這些,或者只能以非常原始的方式做到這些,而且并不真正了解物理世界。LLM 并沒有真正的持久記憶,無法真正推理,當(dāng)然也無法計劃。因此,如果你期望系統(tǒng)變得智能,但卻無法做這些事情,那么你就犯了一個錯誤。這并不是說自回歸 LLM 沒有用。它們當(dāng)然有用,但它們并不有趣,我們無法圍繞它們構(gòu)建整個應(yīng)用程序生態(tài)系統(tǒng)。但作為邁向人類水平智能的通行證,它們?nèi)鄙俦匾慕M成部分。
通過感官輸入,我們看到的信息比通過語言看到的信息多得多,盡管我們有直覺,但我們學(xué)到的大部分內(nèi)容和知識都是通過我們的觀察和與現(xiàn)實世界的互動,而不是通過通過語言。我們在生命最初幾年學(xué)到的一切,當(dāng)然還有動物學(xué)到的一切,都與語言無關(guān)。
Lex Fridman:也就是你所說的,LLM 缺乏對物理世界的理解?所以,直覺物理學(xué)、關(guān)于物理空間、關(guān)于物理現(xiàn)實的常識推理對你來說沒有什么特別之處。這是 LLM 無法做到的巨大飛躍?
Yann LeCun:我們今天使用的 LLM 無法做到這一點,原因有很多,但最主要的原因是 LLM 的訓(xùn)練方式是:你獲取一段文本,刪除文本中的一些單詞,屏蔽它們,用空白 token 代替它們,然后訓(xùn)練一個遺傳神經(jīng)網(wǎng)絡(luò)來預(yù)測缺失的單詞。如果你以一種特殊的方式構(gòu)建這個神經(jīng)網(wǎng)絡(luò),讓它只能查看左側(cè)的單詞或它試圖預(yù)測的單詞,那么你所擁有的系統(tǒng)基本上就是試圖預(yù)測文本中的下一個單詞。因此,你可以給它輸入一段文字、一個提示,然后讓它預(yù)測下一個單詞。它永遠無法準(zhǔn)確預(yù)測下一個單詞。
因此,它要做的就是生成字典中所有可能單詞的概率分布。事實上,它并不預(yù)測單詞。它預(yù)測的是作為子單詞單位的詞塊,因此很容易處理預(yù)測中的不確定性,因為字典中可能出現(xiàn)的單詞數(shù)量有限,你只需計算它們的分布即可。然后,系統(tǒng)就會從該分布中選出一個詞。當(dāng)然,在該分布中,選取概率較高的詞的幾率會更高。因此,你從該分布中采樣,實際產(chǎn)生一個單詞,然后將該單詞移入輸入中,這樣系統(tǒng)就不會預(yù)測第二個單詞了。
這就是所謂的自回歸預(yù)測,這也是為什么這些 LLM 應(yīng)該被稱為「自回歸 LLMs」,但我們只是稱其為 LLM。這種過程與在產(chǎn)生一個單詞之前的過程是有區(qū)別的。
當(dāng)你我交談時,你我都是雙語者,我們會思考我們要說什么,而這與我們要說的語言相對獨立。當(dāng)我們談?wù)撘粋€數(shù)學(xué)概念時,我們所做的思考和我們打算給出的答案與我們是用法語、俄語還是英語來表達無關(guān)。
Lex Fridman:喬姆斯基翻了個白眼,但我明白,所以你是說有一個更大的抽象存在于語言之前并映射到語言?
Yann LeCun:對于我們所做的很多思考來說,是的。
Lex Fridman:你的幽默是抽象的嗎?當(dāng)你發(fā)推文時,你的推文有時有點辛辣,在推文映射到英語之前,你的大腦中是否有一個抽象的表示?
Yann LeCun:確實有一個抽象的表示來想象讀者對該文本的反應(yīng)。但是,想一個數(shù)學(xué)概念,或者想象一下你想用木頭做一個什么東西,或者諸如此類的東西,這種思考與語言完全無關(guān)。你并不是在用某種特定的語言進行內(nèi)心獨白。你是在想象事物的心理模型。我的意思是,如果我讓你想象一下,如果我把這個水瓶旋轉(zhuǎn) 90 度,它會是什么樣子,這與語言毫無關(guān)系。很顯然,我們的大部分思考都是在更抽象的表征層面上進行的,如果輸出的是語言,我們會計劃好要說的話,而不是輸出肌肉動作,我們會在做出答案之前就計劃好答案。
LLM 不會這樣做,只是本能地說出一個又一個單詞。這有點像下意識的動作,有人來問你一個問題,你就會回答這個問題。沒有時間思考答案,但答案很簡單。所以你不需要注意,會自動做出反應(yīng)。這就是 LLM 的工作。它真的不會思考答案。因為它已經(jīng)積累了很多知識,所以能檢索到一些東西,但也只會吐出一個又一個 token,而不會計劃答案。
Lex Fridman:一個 token 一個 token 地生成必然是簡單化的,但如果世界模型足夠復(fù)雜,它最有可能生成的是一連串的 token,這將是一件深奧的事情。
Yann LeCun:但這基于一個假設(shè):這些系統(tǒng)實際上擁有一個永恒的世界模型。
視頻預(yù)測
Lex Fridman:所以真正的問題是…… 能否建立一個對世界有深刻理解的模型?
Yann LeCun:能否通過預(yù)測來構(gòu)建它,答案很可能是肯定的。但能通過預(yù)測單詞來構(gòu)建它嗎?答案很可能是否定的,因為語言在弱帶寬或低帶寬方面非常貧乏,沒有足夠的信息。因此,建立世界模型意味著要觀察世界,了解世界為什么會以這樣的方式演變,然后世界模型的額外組成部分就是能夠預(yù)測你可能采取的行動會導(dǎo)致世界如何演變。
因此,一個真正的模型是:這是我對 T 時世界狀態(tài)的想法,這是我可能采取的行動。在 T+1 時間,預(yù)測的世界狀態(tài)是什么?現(xiàn)在,世界的狀態(tài)并不需要代表世界的一切,它只需要代表與這次行動規(guī)劃相關(guān)的足夠多的信息,但不一定是所有的細(xì)節(jié)。
現(xiàn)在,問題來了。生成模型無法做到這一點。因此,生成模型需要在視頻上進行訓(xùn)練,我們已經(jīng)嘗試了 10 年,你拍攝一段視頻,向系統(tǒng)展示一段視頻,然后要求你預(yù)測視頻的提醒,基本上就是預(yù)測將要發(fā)生什么。
如果你愿意,可以制作大型視頻模型。這樣做的想法由來已久,在 FAIR,我和我們的一些同事嘗試這樣做已有 10 年之久,但你無法真正做到與 LLM 相同的技巧,因為 LLM,正如我所說,你無法準(zhǔn)確預(yù)測哪一個單詞會跟隨一連串單詞,但你可以預(yù)測單詞的分布。現(xiàn)在,如果你去看視頻,你要做的就是預(yù)測視頻中所有可能幀的分布,而我們并不知道如何正確地做到這一點。
我們不知道如何以有用的方式來表示高維連續(xù)空間上的分布。這就是主要問題所在,我們之所以能做到這一點,是因為這個世界比文字復(fù)雜得多,信息豐富得多。文本是離散的,而視頻是高維的、連續(xù)的。這里面有很多細(xì)節(jié)。因此,如果我拍攝了這個房間的視頻,視頻中的攝像機在四處轉(zhuǎn)動,我根本無法預(yù)測在我四處轉(zhuǎn)動時房間里會出現(xiàn)的所有東西。系統(tǒng)也無法預(yù)測攝像機轉(zhuǎn)動時房間里會出現(xiàn)什么。也許它能預(yù)測到這是一個房間,里面有一盞燈,有一面墻,諸如此類的東西。它無法預(yù)測墻壁上的畫是什么樣子,也無法預(yù)測沙發(fā)的紋理是什么樣子。當(dāng)然也無法預(yù)測地毯的質(zhì)地。所以我無法預(yù)測所有這些細(xì)節(jié)。
因此,一種可能的處理方法,也是我們一直在研究的方法,就是建立一個擁有所謂潛在變量的模型。潛在變量被輸入到神經(jīng)網(wǎng)絡(luò)中,它應(yīng)該代表所有你還沒有感知到的關(guān)于這個世界的信息,你需要增強系統(tǒng)的預(yù)測能力,才能很好地預(yù)測像素,包括地毯、沙發(fā)和墻上畫作的細(xì)微紋理。
我們試過直接的神經(jīng)網(wǎng)絡(luò),試過 GAN,試過 VAE,試過各種正則化自動編碼器。我們還嘗試用這些方法來學(xué)習(xí)圖像或視頻的良好表征,然后將其作為圖像分類系統(tǒng)等的輸入?;旧隙际×恕?/span>
所有試圖從損壞版本的圖像或視頻中預(yù)測缺失部分的系統(tǒng),基本上都是這樣的:獲取圖像或視頻,將其損壞或以某種方式進行轉(zhuǎn)換,然后嘗試從損壞版本中重建完整的視頻或圖像,然后希望系統(tǒng)內(nèi)部能夠開發(fā)出良好的圖像表征,以便用于物體識別、分割等任何用途。這種方法基本上是完全失敗的,而它在文本方面卻非常有效。這就是用于 LLM 的原理。
Lex Fridman:失敗究竟出在哪里?是很難很好地呈現(xiàn)圖像,比如將所有重要信息很好地嵌入圖像?是圖像與圖像、圖像與圖像之間的一致性形成了視頻?如果我們把你所有失敗的方式做一個集錦,那會是什么樣子?
Yann LeCun:首先,我必須告訴你什么是行不通的,因為還有其他東西是行得通的。所以,行不通的地方就是訓(xùn)練系統(tǒng)學(xué)習(xí)圖像的表征,訓(xùn)練它從損壞的圖像中重建出好的圖像。
對此,我們有一整套技術(shù),它們都是去噪自編碼器的變體,我在 FAIR 的一些同事開發(fā)了一種叫做 MAE 的東西,即掩蔽自編碼器。因此,它基本上就像 LLM 或類似的東西,你通過破壞文本來訓(xùn)練系統(tǒng),但你破壞圖像,從中刪除補丁,然后訓(xùn)練一個巨大的神經(jīng)網(wǎng)絡(luò)重建。你得到的特征并不好,而且你也知道它們不好,因為如果你現(xiàn)在訓(xùn)練同樣的架構(gòu),但你用標(biāo)簽數(shù)據(jù)、圖像的文字描述等對它進行監(jiān)督訓(xùn)練,你確實能得到很好的表征,在識別任務(wù)上的表現(xiàn)比你做這種自監(jiān)督的再訓(xùn)練要好得多。
結(jié)構(gòu)是好的,編碼器的結(jié)構(gòu)也是好的,但事實上,你訓(xùn)練系統(tǒng)重建圖像,并不能使它產(chǎn)生長而良好的圖像通用特征。那還有什么選擇呢?另一種方法是聯(lián)合嵌入。
JEPA(聯(lián)合嵌入預(yù)測架構(gòu))
Lex Fridman::聯(lián)合嵌入架構(gòu)與 LLM 之間的根本區(qū)別是什么?JEPA 能帶我們進入 AGI 嗎?
Yann LeCun:首先,它與 LLM 等生成式架構(gòu)有什么區(qū)別?LLM 或通過重構(gòu)訓(xùn)練的視覺系統(tǒng)會生成輸入。它們生成的原始輸入是未損壞、未轉(zhuǎn)換的,因此你必須預(yù)測所有像素,而系統(tǒng)需要花費大量資源來實際預(yù)測所有像素和所有細(xì)節(jié)。而在 JEPA 中,你不需要預(yù)測所有像素,你只需要預(yù)測輸入的抽象表示。這在很多方面都要容易得多。因此,JEPA 系統(tǒng)在訓(xùn)練時,要做的就是從輸入中提取盡可能多的信息,但只提取相對容易預(yù)測的信息。因此,世界上有很多事情是我們無法預(yù)測的。例如,如果你有一輛自動駕駛汽車在街上或馬路上行駛,道路周圍可能有樹,而且今天可能是大風(fēng)天。因此,樹上的葉子會以一種你無法預(yù)測的半混亂、隨機的方式移動,而你并不關(guān)心,也不想預(yù)測。因此,你希望編碼器基本上能消除所有這些細(xì)節(jié)。它會告訴你樹葉在動,但不會告訴你具體發(fā)生了什么。因此,當(dāng)你在表示空間中進行預(yù)測時,你不必預(yù)測每片樹葉的每個像素。這樣不僅簡單得多,而且還能讓系統(tǒng)從本質(zhì)上學(xué)習(xí)到世界的抽象表征,其中可以建模和預(yù)測的內(nèi)容被保留下來,其余的則被編碼器視為噪音并消除掉。
因此,它提升了表征的抽象程度。仔細(xì)想想,這絕對是我們一直在做的事情。每當(dāng)我們描述一種現(xiàn)象時,我們都會在特定的抽象層次上進行描述。我們并不總是用量子場論來描述每一種自然現(xiàn)象。那是不可能的。因此,我們有多個抽象層次來描述世界上發(fā)生的事情,從量子場論到原子理論、分子、化學(xué)、材料,一直到現(xiàn)實世界中的具體物體等等。因此,我們不能只在最底層模擬一切。而這正是 JEPA 的理念所在,以自我監(jiān)督的方式學(xué)習(xí)抽象表征,而且還可以分層學(xué)習(xí)。因此,我認(rèn)為這是智能系統(tǒng)的重要組成部分。而在語言方面,我們可以不用這樣做,因為語言在某種程度上已經(jīng)是抽象的,已經(jīng)消除了很多不可預(yù)測的信息。因此,我們可以不做聯(lián)合嵌入,不提升抽象程度,直接預(yù)測單詞。
Lex Fridman:你是說語言,我們懶得用語言,因為我們已經(jīng)免費得到了抽象的表述,而現(xiàn)在我們必須放大,真正思考一般的智能系統(tǒng)。我們必須處理一塌糊涂的物理現(xiàn)實和現(xiàn)實。而你確實必須這樣做,從完整、豐富、詳盡的現(xiàn)實跳轉(zhuǎn)到基于你所能推理的現(xiàn)實的抽象表征,以及所有諸如此類的東西。
Yann LeCun:沒錯。那些通過預(yù)測來學(xué)習(xí)的自監(jiān)督算法,即使是在表征空間中,如果輸入數(shù)據(jù)的冗余度越高,它們學(xué)習(xí)到的概念也就越多。數(shù)據(jù)的冗余度越高,它們就越能捕捉到數(shù)據(jù)的內(nèi)部結(jié)構(gòu)。因此,在知覺輸入、視覺等感官輸入中,冗余結(jié)構(gòu)要比文本中的冗余結(jié)構(gòu)多得多。語言可能真的代表了更多的信息,因為它已經(jīng)被壓縮了。你說得沒錯,但這也意味著它的冗余度更低,因此自監(jiān)督的效果就不會那么好。
Lex Fridman:有沒有可能將視覺數(shù)據(jù)的自監(jiān)督訓(xùn)練與語言數(shù)據(jù)的自監(jiān)督訓(xùn)練結(jié)合起來?盡管你說的是 10 到 13 個 token,但其中蘊含著大量的知識。這 10 到 13 個 token 代表了我們?nèi)祟愐呀?jīng)弄明白的全部內(nèi)容,包括 Reddit 上的廢話、所有書籍和文章的內(nèi)容以及人類智力創(chuàng)造的全部內(nèi)容。
Yann LeCun:嗯,最終是的。但我認(rèn)為,如果我們太早這樣做,就有可能被誘導(dǎo)作弊。而事實上,這正是目前人們在視覺語言模型上所做的。我們基本上是在作弊,在用語言作為拐杖,幫助我們視覺系統(tǒng)的缺陷從圖像和視頻中學(xué)習(xí)良好的表征。
這樣做的問題是,我們可以通過向語言模型提供圖像來改進它們,但我們甚至無法達到貓或狗的智力水平或?qū)κ澜绲睦斫馑?,因為它們沒有語言。它們沒有語言,但對世界的理解卻比任何 LLM 都要好得多。它們可以計劃非常復(fù)雜的行動,并想象一系列行動的結(jié)果。在將其與語言結(jié)合之前,我們?nèi)绾巫寵C器學(xué)會這些?顯然,如果我們將其與語言相結(jié)合,會取得成果,但在此之前,我們必須專注于如何讓系統(tǒng)學(xué)習(xí)世界是如何運作的。
事實上,我們使用的技術(shù)是非對比性的。因此,不僅架構(gòu)是非生成的,我們使用的學(xué)習(xí)程序也是非對比的。我們有兩套技術(shù)。一套是基于蒸餾法,有很多方法都采用了這一原理,DeepMind 有一種叫 BYOL,F(xiàn)AIR 有幾種,一種叫 vcREG,還有一種叫 I-JEPA。應(yīng)該說,vcREG 并不是一種蒸餾方法,但 I-JEPA 和 BYOL 肯定是。還有一種也叫 DINO 或 DINO,也是從 FAIR 生產(chǎn)出來的。這些方法的原理是,你將完整的輸入,比如說一張圖片,通過編碼器運行,產(chǎn)生一個表示,然后你對輸入進行破壞或轉(zhuǎn)換,通過本質(zhì)上等同于相同的編碼器運行,但有一些細(xì)微差別,然后訓(xùn)練一個預(yù)測器。
有時預(yù)測器非常簡單,有時預(yù)測器并不存在,但要訓(xùn)練一個預(yù)測器來預(yù)測第一個未損壞輸入與已損壞輸入之間的關(guān)系。但你只訓(xùn)練第二個分支。你只訓(xùn)練網(wǎng)絡(luò)中輸入損壞輸入的部分。另一個網(wǎng)絡(luò)則不需要訓(xùn)練。但由于它們共享相同的權(quán)重,當(dāng)你修改第一個網(wǎng)絡(luò)時,它也會修改第二個網(wǎng)絡(luò)。通過各種技巧,你可以防止系統(tǒng)崩潰,就像我之前解釋的那種崩潰,系統(tǒng)基本上會忽略輸入。因此,這種方法非常有效。我們在 FAIR 開發(fā)的兩種技術(shù),DINO 和 I-JEPA 在這方面都非常有效。
我們的最新版本稱為 V-JEPA。它與 I-JEPA 的理念基本相同,只是將其應(yīng)用于視頻。因此,你可以獲取整個視頻,然后屏蔽其中的一大塊內(nèi)容。我們所屏蔽的實際上是一個時間管,所以是整個視頻中每一幀的整個片段。
這是我們所擁有的第一個能學(xué)習(xí)到良好視頻表征的系統(tǒng),因此當(dāng)你將這些表征輸入到一個有監(jiān)督的分類器頭部時,它能以相當(dāng)高的準(zhǔn)確率告訴你視頻中發(fā)生了什么動作。因此,這是我們第一次獲得這種質(zhì)量的東西。
結(jié)果似乎表明,我們的系統(tǒng)可以通過表征來判斷視頻在物理上是可能的,還是完全不可能的,因為某些物體消失了,或者某個物體突然從一個位置跳到另一個位置,或者改變了形狀什么的。
Lex Fridman:這能讓我們建立一種足夠了解世界并能夠駕駛汽車的世界模型嗎?
Yann LeCun:可能還需要一段時間才能達到這個目標(biāo)?,F(xiàn)在已經(jīng)有一些機器人系統(tǒng),就是基于這個想法。你需要的是一個稍加改動的版本,想象你有一段完整的視頻,而你對這段視頻所做的,就是把它在時間上轉(zhuǎn)換到未來。因此,你只能看到視頻的開頭,而看不到原始視頻中的后半部分,或者只屏蔽視頻的后半部分。然后你就可以訓(xùn)練一個 JEPA 系統(tǒng)或我描述的那種系統(tǒng),來預(yù)測被遮擋視頻的完整表現(xiàn)形式。不過,你也要給預(yù)測器提供一個動作。例如,車輪向右轉(zhuǎn)動 10 度或其他動作,對嗎?
因此,如果這是一個汽車攝像頭,而你又知道方向盤的角度,那么在某種程度上,你應(yīng)該能夠預(yù)測你所看到的畫面會發(fā)生什么變化。顯然,你無法預(yù)測視圖中出現(xiàn)的物體的所有細(xì)節(jié),但在抽象表示層面,你或許可以預(yù)測將要發(fā)生的事情。所以,現(xiàn)在你有了一個內(nèi)部模型,它說:"這是我對 T 時刻世界狀態(tài)的想法,這是我正在采取的行動。這里是對 T 加 1、T 加 delta T、T 加 2 秒時世界狀態(tài)的預(yù)測," 不管它是什么。如果你有這樣一個模型,你就可以用它來進行規(guī)劃。因此,現(xiàn)在你可以做 LMS 做不到的事情,即規(guī)劃你要做的事情。因此,當(dāng)你到達一個特定的結(jié)果或滿足一個特定的目標(biāo)時。
因此,你可以有很多目標(biāo)。我可以預(yù)測,如果我有一個這樣的物體,我張開手,它就會掉下來。如果我用一種特定的力量把它推到桌子上,它就會移動。如果我用同樣的力推桌子,它可能不會移動。因此,我們腦海中就有了這個世界的內(nèi)部模型,它能讓我們計劃一系列的行動,以達到特定的目標(biāo)。現(xiàn)在,如果你有了這個世界模型,我們就可以想象一連串的動作,預(yù)測這一連串動作的結(jié)果,衡量最終狀態(tài)在多大程度上滿足了某個特定目標(biāo),比如把瓶子移到桌子左邊,然后在運行時規(guī)劃一連串動作,使這個目標(biāo)最小化。
我們說的不是學(xué)習(xí),而是推理時間,所以這就是規(guī)劃,真的。在最優(yōu)控制中,這是一個非常經(jīng)典的東西。它被稱為模型預(yù)測控制。你有一個想要控制的系統(tǒng)模型,它能預(yù)測與一系列指令相對應(yīng)的狀態(tài)序列。而你正在規(guī)劃一連串的指令,以便根據(jù)你的角色模型,系統(tǒng)的最終狀態(tài)將滿足你設(shè)定的目標(biāo)。自從有了計算機,也就是 60 年代初開始,火箭軌跡的規(guī)劃就一直采用這種方式。
強化學(xué)習(xí)
Lex Fridman:建議放棄生成模型而轉(zhuǎn)而采用聯(lián)合嵌入架構(gòu)?你已經(jīng)有一段時間是強化學(xué)習(xí)的批評者了。這感覺就像法庭證詞,放棄概率模型,轉(zhuǎn)而支持我們談到的基于能量的模型,放棄對比方法,轉(zhuǎn)而支持正則化方法。
Yann LeCun:我認(rèn)為它不應(yīng)該被完全放棄,但我認(rèn)為它的使用應(yīng)該最小化,因為它在采樣方面效率非常低。因此,訓(xùn)練系統(tǒng)的正確方法是首先讓它從主要觀察(也許還有一點交互)中學(xué)習(xí)世界和世界模型的良好表示。
Lex Fridman:RLHF 為什么效果這么好?
Yann LeCun:具有轉(zhuǎn)化效果的是人類反饋,有很多方法可以使用它,其中一些只是純粹的監(jiān)督,實際上,它并不是真正的強化學(xué)習(xí)。
開源
Yann LeCun:擁有人工智能行業(yè)、擁有不存在獨特偏見的人工智能系統(tǒng)的唯一方法就是擁有開源平臺,任何團體都可以在該平臺上構(gòu)建專門的系統(tǒng)。歷史的必然方向就是,絕大多數(shù)的 AI 系統(tǒng)都會建立在開源平臺之上。
Meta 圍繞的商業(yè)模式是,你提供一種服務(wù),而這種服務(wù)的資金來源要么是廣告,要么是商業(yè)客戶。
舉例來說,如果你有一個 LLM,它可以通過 WhatsApp 與顧客對話,幫助一家披薩店,顧客只需點一份披薩,系統(tǒng)就會問他們:「你想要什么配料或什么尺寸,等等」。商家會為此付費,這就是一種模式。
否則,如果是比較經(jīng)典的服務(wù)系統(tǒng),它可以由廣告支持,或者有幾種模式。但問題是,如果你有足夠大的潛在客戶群,而且無論如何你都需要為他們構(gòu)建該系統(tǒng),那么將其發(fā)布到開放源代碼中也無傷大雅。
Lex Fridman:Meta 所打的賭是:我們會做得更好嗎?
Yann LeCun:不。我們已經(jīng)擁有龐大的用戶群和客戶群。
我們提供開源的系統(tǒng)或基本模型、基礎(chǔ)模型,供他人在此基礎(chǔ)上構(gòu)建應(yīng)用程序,這也無傷大雅。如果這些應(yīng)用對我們的客戶有用,我們可以直接向他們購買。他們可能會改進平臺。事實上,我們已經(jīng)看到了這一點。LLaMA 2 的下載量已達數(shù)百萬次,成千上萬的人提出了如何改進平臺的想法。因此,這顯然加快了向廣大用戶提供該系統(tǒng)的進程,而且數(shù)以千計的企業(yè)正在使用該系統(tǒng)構(gòu)建應(yīng)用程序。因此,Meta 從這項技術(shù)中獲取收入的能力并沒有因為基礎(chǔ)模型的開源分布而受到影響。
Llama 3
Lex Fridman:關(guān)于 LLaMA 3 ,你最興奮的是什么?
Yann LeCun:會有各種版本的 LLaMA,它們是對以前的 LLaMA 的改進,更大、更好、多模態(tài),諸如此類。然后,在未來的幾代中,有能夠真正了解世界如何運作的規(guī)劃系統(tǒng),可能是通過視頻進行訓(xùn)練的,因此它們會有一些世界模型,可能能夠進行我之前談到的推理和規(guī)劃類型。
這需要多長時間?朝這個方向進行的研究什么時候會進入產(chǎn)品線?我不知道,也不能告訴你。在我們實現(xiàn)這一目標(biāo)之前,我們基本上必須經(jīng)歷一些突破,但大家能夠監(jiān)控我們的進展,因為我們公開發(fā)布了自己的研究。因此,上周我們發(fā)布了 V-JEPA 工作,這是邁向視頻訓(xùn)練系統(tǒng)的第一步。
下一步將是基于這種視頻創(chuàng)意訓(xùn)練的世界模型。DeepMind 也有類似的工作,加州大學(xué)伯克利分校也有關(guān)于世界模型和視頻的工作。很多人都在做這方面的工作。我認(rèn)為很多好的想法正在出現(xiàn)。我敢打賭,這些系統(tǒng)將是 JEPA 輕型系統(tǒng),它們不會是生成模型,我們將看看未來會發(fā)生什么。
30 多年前,我們正在研究組合網(wǎng)絡(luò)和早期的神經(jīng)網(wǎng)絡(luò),我看到了一條通往人類水平智能的道路,系統(tǒng)可以理解世界、記憶、計劃、推理。有一些想法可以取得進展,可能有機會發(fā)揮作用,我對此感到非常興奮。
我喜歡的是,我們在某種程度上朝著一個好的方向前進,也許在我的大腦變成白沙司或在需要退休之前取得成功。
Lex Fridman:你的大部分興奮點還是在理論方面,也就是軟件方面?
Yann LeCun:很多年前我曾經(jīng)是一名硬件人員。規(guī)模是必要的,但還不夠。有可能我未來還能活十年,但我還是要跑一小段距離。當(dāng)然,對于能源的效率,我們?nèi)〉玫倪M步越遠,我們在努力工作方面取得的進步就越多。我們必須降低功耗。如今,一個 GPU 的功耗在半千瓦到一千瓦之間。人腦的功率約為 25 瓦,而 GPU 的功率遠遠低于人腦。你需要 10 萬或 100 萬的功率才能與之媲美,所以我們的差距非常大。
AGI
Lex Fridman:你經(jīng)常說 GI 不會很快到來,背后的基本直覺是什么?
Yann LeCun:那種被科幻小說和好萊塢廣為流傳的想法,即某個人會發(fā)現(xiàn) AGI 或人類級 AI 或 AMI(不管你怎么稱呼它)的秘密,然后打開機器,我們就擁有了 AGI,是不可能發(fā)生的。
這將是一個循序漸進的過程。我們是否會有系統(tǒng)能從視頻中了解世界是如何運作的,并學(xué)習(xí)良好的表征?達到我們在人類身上觀察到的規(guī)模和性能之前,還需要相當(dāng)長的一段時間,不是一天兩天的事。
我們會讓系統(tǒng)擁有大量關(guān)聯(lián)記憶,從而記住東西嗎?是的,但這也不是明天就能實現(xiàn)的。我們需要開發(fā)一些基本技術(shù)。我們有很多這樣的技術(shù),但要讓它們與完整的系統(tǒng)協(xié)同工作,那就是另一回事了。
我們是否將擁有能夠推理和規(guī)劃的系統(tǒng),或許就像我之前描述的目標(biāo)驅(qū)動型人工智能架構(gòu)那樣?是的,但要讓它正常工作,還需要一段時間。在我們讓所有這些東西協(xié)同工作之前,在讓系統(tǒng)基于此實現(xiàn)學(xué)習(xí)分層規(guī)劃、分層表示,能夠像人腦那樣針對手頭的各種不同情況進行配置之前,至少需要十年時間甚至更長,因為有很多問題我們現(xiàn)在還沒有看到,我們還沒有遇到,所以我們不知道在這個框架內(nèi)是否有簡單的解決方案。
在過去的十幾年,我一直聽到有人聲稱 AGI 指日可待,但他們都錯了。
智商可以衡量人類的一些東西,但因為人類的形式相對統(tǒng)一。但是,它只能衡量一種能力,而這種能力可能與某些任務(wù)相關(guān),但與其他任務(wù)無關(guān)。但如果你說的是其他智能實體,對它們來說很容易做到的基本事情卻截然不同,那么它就沒有任何意義了。因此,智能是一種技能的集合,也是一種高效獲取新技能的能力。一個特定的智能實體所擁有或能夠快速學(xué)習(xí)的技能集合與另一個智能實體的技能集合是不同的。因為這是一個多維度的東西,技能集合是一個高維空間,你無法測量,也無法比較兩個東西是否一個比另一個更聰明。它是多維的。
Lex Fridman:你經(jīng)常反對所謂的人工智能末日論者,解釋一下他們的觀點以及你認(rèn)為他們錯誤的原因。
Yann LeCun:人工智能末日論者想象了各種災(zāi)難場景,人工智能如何逃脫或控制并基本上殺死我們所有人,這依賴于一大堆假設(shè),而這些假設(shè)大多是錯誤的。
第一個假設(shè)是,超級智能的出現(xiàn)將是一個事件,在某個時刻,我們會發(fā)現(xiàn)其中的秘密,我們會打開一臺超級智能的機器,因為我們以前從未這樣做過,所以它會占領(lǐng)世界,殺死我們所有人。這是錯誤的。這不會是一個事件。
我們將擁有像貓一樣聰明的系統(tǒng),它們具有人類智能的所有特征,但它們的智能水平可能像貓或鸚鵡之類。然后,我們再逐步提高它們的智能水平。在讓它們變得更聰明的同時,我們也要在它們身上設(shè)置一些防護欄,并學(xué)習(xí)如何設(shè)置防護欄,讓它們表現(xiàn)得更加正常。
在自然界中,似乎更聰明的物種最終會統(tǒng)治另一個物種,甚至有時是有意為之,有時只是因為錯誤而區(qū)分其他物種。
所以你會想:「好吧,如果人工智能系統(tǒng)比我們更聰明,肯定會消滅我們,如果不是故意的,只是因為他們不關(guān)心我們,」這是荒謬的 —— 第一個原因是它們不會成為與我們競爭的物種,不會有主宰的欲望,因為主宰的欲望必須是智能系統(tǒng)中固有的東西。它在人類身上是根深蒂固的,狒狒、黑猩猩、狼都有這種欲望,但在猩猩身上卻沒有。這種支配、服從或以其他方式獲得地位的欲望是社會性物種所特有的。像猩猩這樣的非社會性物種就沒有這種欲望,而且它們和我們一樣聰明。
人形機器人
Lex Fridman:你認(rèn)為很快就會有數(shù)以百萬計的人形機器人四處走動嗎?
Yann LeCun:不會很快,但一定會發(fā)生。
未來十年,我認(rèn)為機器人行業(yè)將非常有趣,機器人行業(yè)的興起已經(jīng)等待了 10 年、20 年,除了預(yù)編程行為和諸如此類的東西外,并沒有真正出現(xiàn)。主要問題還是莫拉維克悖論,我們?nèi)绾巫屵@些系統(tǒng)理解世界是如何運作的,并計劃行動?這樣,我們才能完成真正專業(yè)的任務(wù)。波士頓動力的做法基本上是通過大量手工制作的動態(tài)模型和事先的精心策劃,這是非常經(jīng)典的機器人技術(shù),其中包含大量創(chuàng)新和一點點感知,但這仍然不夠,他們無法制造出家用機器人。
此外,我們離完全自主的 L5 駕駛還有一定距離,比如一個可以像 17 歲孩子一樣通過 20 小時的駕駛來訓(xùn)練自己的系統(tǒng)。
因此,在擁有世界模型、能夠自訓(xùn)練以了解世界如何運作的系統(tǒng)之前,我們不會在機器人技術(shù)方面取得重大進展。