大神卡帕西拿DeepSeek R1講強化學(xué)習(xí)!最新大模型內(nèi)部機制視頻爆火,“沒有技術(shù)背景也能看懂”
宣布全職搞教育的AI大神Andrej Karpathy(卡帕西),新年第一課來了——
發(fā)布三個半小時視頻課,深入解析了ChatGPT等大語言模型的內(nèi)部工作機制,其中涵蓋模型開發(fā)的完整訓(xùn)練過程、如何在實際應(yīng)用中最有效地使用它們,還有AI未來發(fā)展趨勢。
卡帕西強調(diào),這次是為大眾準(zhǔn)備的,即使沒有技術(shù)背景也能看懂!
他在視頻中深入淺出用大量具體示例,如GPT-2、Llama 3.1等,完整講述了大模型的原理。
當(dāng)紅炸子雞DeepSeek也沒落下,成為一大重點。
卡帕西課程的含金量無需多言,剛一發(fā)就被網(wǎng)友團團圍住,熬夜也要看的那種。
網(wǎng)友們表示,接下來三個半小時就這樣過了:
你知道,Karpathy發(fā)布新視頻,一整天都會變得非常美好,每個視頻都是金礦!
機器學(xué)習(xí)工程師Rohan Paul看后也表示其中有關(guān)于ChatGPT內(nèi)部工作機制最簡潔明了的解釋。
話不多說了,以下是重點知識點,文末有完整視頻~
重點一覽
用過類似ChatGPT等工具的人可能都會有這樣的疑問:
這個文本框背后是什么?你可以在里面輸入任何內(nèi)容并按回車,但我們應(yīng)該輸入什么?這些生成的詞又是什么意思?這一切是如何工作的?你究竟在與什么交流?
卡帕西在視頻中詳細解答了這些問題。
他從如何構(gòu)建這樣一個LLM展開,詳細講解了所有階段:
- 預(yù)訓(xùn)練:數(shù)據(jù)、分詞、Transformer神經(jīng)網(wǎng)絡(luò)的輸入/輸出及內(nèi)部機制、推理、GPT-2訓(xùn)練示例、Llama 3.1基礎(chǔ)推理示例。
- 監(jiān)督微調(diào):對話數(shù)據(jù)、“LLM心理學(xué)”:幻覺、工具使用、知識/工作記憶、自我認知、模型需要token來思考、拼寫、參差不齊的智力。
- 強化學(xué)習(xí):熟能生巧、DeepSeek-R1、AlphaGo、基于人類反饋的強化學(xué)習(xí)(RLHF)。
預(yù)訓(xùn)練
首先是預(yù)訓(xùn)練階段,使模型擁有豐富的知識。
預(yù)訓(xùn)練的第一步是下載和處理互聯(lián)網(wǎng)數(shù)據(jù)。目標(biāo)是從互聯(lián)網(wǎng)的公開資源中獲取大量且種類多樣的文本、高質(zhì)量文檔,例如FineWeb。
第二步是文本提取。
爬蟲獲取的是網(wǎng)頁的原始HTML代碼,需要過濾和處理提取出網(wǎng)頁文本,去除導(dǎo)航和無關(guān)內(nèi)容。
還要進行語言過濾,例如只保留英語占比超過65%的網(wǎng)頁,不同公司會根據(jù)需求決定保留的語言種類,如果過濾掉所有的西班牙語,那么模型之后在西班牙語上的表現(xiàn)就可能不會很好。
之后,還會進行去重、移除個人身份信息等進一步的過濾步驟,最終得到大規(guī)模的文本數(shù)據(jù),進入訓(xùn)練集。
接下來要做的是在這些數(shù)據(jù)上訓(xùn)練神經(jīng)網(wǎng)絡(luò)。在將文本輸入神經(jīng)網(wǎng)絡(luò)之前,需要將文本轉(zhuǎn)換為一維符號序列。
通過字節(jié)對編碼(BPE)算法,將常見的字節(jié)組合成新符號,從而減少序列長度并增加符號詞匯量。tokenization是將文本轉(zhuǎn)換為符號序列的過程,不同的輸入文本會根據(jù)tokenization規(guī)則生成不同的符號序列。
訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,從數(shù)據(jù)集中隨機抽取token作為輸入,并預(yù)測下一個token。神經(jīng)網(wǎng)絡(luò)的輸出是下一個token出現(xiàn)的概率分布。
通過訓(xùn)練過程不斷更新網(wǎng)絡(luò)參數(shù),使預(yù)測結(jié)果與實際數(shù)據(jù)的統(tǒng)計模式一致。
神經(jīng)網(wǎng)絡(luò)內(nèi)部是一個復(fù)雜的數(shù)學(xué)表達式,輸入token序列與網(wǎng)絡(luò)參數(shù)混合,經(jīng)過多層變換后輸出預(yù)測結(jié)果。現(xiàn)代神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如Transformer,具有大量參數(shù)和復(fù)雜的內(nèi)部結(jié)構(gòu),但本質(zhì)上是通過優(yōu)化參數(shù)來使預(yù)測結(jié)果與訓(xùn)練數(shù)據(jù)匹配。
訓(xùn)練過程需要強大的計算資源支持,依賴高性能GPU集群,這些硬件能夠高效處理大規(guī)模并行計算任務(wù),加速模型的訓(xùn)練和優(yōu)化。隨著技術(shù)的發(fā)展,訓(xùn)練成本逐漸降低,但大規(guī)模模型的訓(xùn)練仍然需要大量的計算資源投入。
卡帕西在視頻中以GPT-2為例討論了訓(xùn)練,包括其參數(shù)、上下文長度和訓(xùn)練成本。
之后他又以Llama 3為例討論了基礎(chǔ)語言模型的屬性,它可以生成類似于互聯(lián)網(wǎng)文檔的token序列,并將知識存儲在其參數(shù)中。
然而,模型的輸出具有隨機性,每次生成的結(jié)果可能不同,且模型可能會過度記憶訓(xùn)練數(shù)據(jù)中的某些內(nèi)容,導(dǎo)致輸出與訓(xùn)練數(shù)據(jù)高度相似,甚至直接復(fù)述某些條目。
這種現(xiàn)象在實際應(yīng)用中可能會帶來問題,例如模型可能無法區(qū)分事實和虛假信息,因為它只是基于訓(xùn)練數(shù)據(jù)的統(tǒng)計規(guī)律進行生成。
預(yù)訓(xùn)練階段,模型通過大量互聯(lián)網(wǎng)文檔數(shù)據(jù)學(xué)習(xí)生成文本的能力,輸出為基礎(chǔ)模型,它能夠生成與互聯(lián)網(wǎng)文檔統(tǒng)計特性相似的token序列,但本身并不是一個能夠回答問題的“助手”。
所以還需要后訓(xùn)練。
后訓(xùn)練
在后訓(xùn)練階段,模型通過學(xué)習(xí)人類標(biāo)注的對話數(shù)據(jù)來調(diào)整其行為,從而能夠生成符合人類期望的回答。數(shù)據(jù)集規(guī)模較小,訓(xùn)練時間也相對較短。
早期的對話數(shù)據(jù)集(如InstructGPT)主要由人類標(biāo)注人員手工創(chuàng)建,但隨著技術(shù)的發(fā)展,現(xiàn)代的對話數(shù)據(jù)集越來越多地利用現(xiàn)有的語言模型來生成初始回答,然后由人類進行編輯和優(yōu)化。這些數(shù)據(jù)集可能包含數(shù)百萬條對話,覆蓋廣泛的主題和領(lǐng)域。
具體來說,后訓(xùn)練包括監(jiān)督微調(diào)(SFT)和強化學(xué)習(xí)(RL)。
在監(jiān)督微調(diào)階段,模型通過創(chuàng)建對話數(shù)據(jù)集,學(xué)習(xí)如何與人類進行多輪對話。
例如,OpenAI的InstructGPT論文詳細介紹了如何通過人類標(biāo)注者創(chuàng)建對話數(shù)據(jù)集。
強化學(xué)習(xí)階段,目的是讓模型通過實踐和試錯來發(fā)現(xiàn)解決問題的最佳方法。
卡帕西用人類在學(xué)校學(xué)習(xí)的過程類比。預(yù)訓(xùn)練相當(dāng)于閱讀課本中的背景知識,微調(diào)相當(dāng)于學(xué)習(xí)專家提供的解題方法,而強化學(xué)習(xí)則相當(dāng)于通過練習(xí)題來鞏固知識,自己探索解題步驟。
具體來說,模型會嘗試多種不同的解題方法,這些方法可能來自不同的prompt。之后評估解決方案,檢查每個解決方案是否正確。正確的解決方案會被標(biāo)記為“好”,錯誤的解決方案會被標(biāo)記為“壞”。
模型會根據(jù)正確答案的解決方案進行訓(xùn)練,強化那些能夠得到正確答案的解決方案。這類似于學(xué)生在練習(xí)中發(fā)現(xiàn)有效的方法后,會更多地使用這些方法。
強化學(xué)習(xí)和人類標(biāo)注相比,人類標(biāo)注者在創(chuàng)建訓(xùn)練數(shù)據(jù)時,很難知道哪種解決方案最適合模型。人類標(biāo)注者可能會注入模型不理解的知識,或者忽略模型已有的知識,導(dǎo)致模型難以理解。而強化學(xué)習(xí)讓模型通過試錯來自主發(fā)現(xiàn)適合自己的解決方案。
模型會嘗試多種路徑,找到能夠可靠地達到正確答案的解決方案。
卡帕西用具體示例討論了強化學(xué)習(xí)在大語言模型中的應(yīng)用及其重要性,特別是DeepSeek最近發(fā)布的論文引發(fā)了公眾對這一領(lǐng)域的關(guān)注。
他還講了人類反饋的強化學(xué)習(xí)(RLHF)工作原理及其優(yōu)缺點。
最后卡帕西提到了多模態(tài)模型的發(fā)展,模型能夠?qū)⒁纛l、圖像和文本轉(zhuǎn)化為tokens,并在同一個模型中同時處理。
這種多模態(tài)能力將使模型能夠進行更自然的交互,例如理解語音指令、處理圖像內(nèi)容等。
目前局限性在于,模型執(zhí)行任務(wù)時,通常是被動地接收任務(wù)并完成,無法像人類那樣在長時間內(nèi)持續(xù)、連貫地執(zhí)行復(fù)雜任務(wù)。
未來可能會出現(xiàn)能夠持續(xù)執(zhí)行任務(wù)的Agent,可以在長時間內(nèi)執(zhí)行任務(wù),并定期向人類報告進度。人類將成為這些Agent的監(jiān)督者。
感興趣的童鞋來看完整視頻:
持續(xù)專注于教育的AI大牛
卡帕西曾任特斯拉AI主管,之后去了OpenAI,去年2月從OpenAI離職。
他在整個AI屆擁有超高人氣,很大一部分來自于他的課程。
包括他自己的早期博客文字分享和后來的一系列Youtube視頻教程,他還與李飛飛合作開設(shè)的的斯坦福大學(xué)首個深度學(xué)習(xí)課程CS231n《卷積神經(jīng)網(wǎng)絡(luò)與視覺識別》。
今天不少學(xué)者和創(chuàng)業(yè)者,都是跟著他入門的。
卡帕西對教育的熱情,甚至可以追溯到學(xué)生時期在網(wǎng)上教大家玩魔方。
去年7月,從OpenAI離職的卡帕西突然官宣創(chuàng)業(yè),搞了一家AI原生的新型學(xué)?!?strong>Eureka Labs。
怎么理解AI原生?
想象一下與費曼一起學(xué)習(xí)高質(zhì)量教材,費曼會在每一步中1對1指導(dǎo)你。
不幸的是,即使每個學(xué)科都能找到一位像費曼這樣的大師,他們也無法分身親自輔導(dǎo)地球上的80億人。
但AI可以,而且AI有無限的耐心,精通世界上所有的語言。
所以卡帕西要打造“教師+人工智能的共生”,可以在一個通用平臺上運行整個課程。
如果我們成功了,任何人都將易于學(xué)習(xí)任何東西,擴大教育這個概念本身的“范圍”和“程度”。
目前在EurekaLabs的官方GitHub賬號上也有相關(guān)課程了,手把手帶你構(gòu)建一個類似ChatGPT的故事生成大模型,感興趣的童鞋可以去一睹為快。
視頻鏈接:https://www.youtube.com/watch?v=7kVfqmGtDL8