帶你一文讀懂爆火的 DeepSeek-R1 新模型技術(shù),為何震動了全球 AI 圈 原創(chuàng) 精華
這個春節(jié),DeepSeek 實在太火爆了。
短短一個月不到,DeepSeek 再次震撼了全球人工智能領(lǐng)域。
在去年12月,DeepSeek 推出的 DeepSeek-V3 在全球 AI 界引起了軒然大波,它憑借極低的訓(xùn)練成本,達(dá)到了與 GPT-4o、Claude Sonnet 3.5 等頂級模型媲美的性能表現(xiàn)。
與之前不同的是,此次推出的 DeepSeek-R1 模型不僅在成本上更具優(yōu)勢,而且在技術(shù)層面實現(xiàn)了質(zhì)的飛躍,更重要的是,它是一款開源模型。
新模型 DeepSeek-R1 繼承了高性價比的特點,僅需十分之一的成本就能達(dá)到 GPT-o1 級別的性能。因此,許多行業(yè)人士紛紛宣稱“ DeepSeek 有望取代 OpenAI”。
舉例來說,前 Meta AI 員工、著名 AI 論文推特博主 Elvis 指出,DeepSeek-R1 的論文堪稱珍寶,因為它深入探討了提升大語言模型推理能力的多種途徑,并揭示了其中的顯著涌現(xiàn)特性。
英偉達(dá) GEAR Lab的項目主管 Jim Fan 在 Twitter 上提及,DeepSeek-R1 利用硬編碼規(guī)則計算出的實際獎勵,從而規(guī)避了使用易于被 RL 破解的學(xué)習(xí)獎勵模型。這種方法促成了模型自我反思和探索行為的自然涌現(xiàn)。
Jim Fan 甚至表示,DeepSeek-R1 實現(xiàn)了 OpenAI 本應(yīng)采取的行動——開源。
那么,他們提及的純粹基于 RL 方法訓(xùn)練的模型究竟指的是什么?
模型展現(xiàn)的“頓悟時刻”(Aha Moment)又是如何證明 AI 已經(jīng)具備了涌現(xiàn)能力的?
我們更感興趣的是,DeepSeek-R1 的這一創(chuàng)新對人工智能領(lǐng)域未來的發(fā)展方向,究竟蘊含著怎樣的意義?
1、用最簡單的配方,回歸最純粹的強化學(xué)習(xí)
自 o1 模型發(fā)布以來,推理強化成為了行業(yè)內(nèi)的焦點方法。
通常情況下,一個模型在訓(xùn)練過程中會采用一種固定的訓(xùn)練方法來增強其推理能力。
然而,DeepSeek 團隊在 R1 模型的訓(xùn)練中,大膽嘗試了三種截然不同的技術(shù)路線:直接強化學(xué)習(xí)訓(xùn)練(R1-Zero)、多階段逐步訓(xùn)練(R1)以及模型蒸餾,并且都取得了成功。這兩種訓(xùn)練方法和模型蒸餾都蘊含了眾多創(chuàng)新元素,對整個行業(yè)產(chǎn)生了深遠(yuǎn)的影響。
尤其令人振奮的是直接強化學(xué)習(xí)這條路徑。DeepSeek-R1 成為了首個驗證這一方法有效性的模型。
讓我們先來探討一下,傳統(tǒng)訓(xùn)練 AI 推理能力的常用方法是什么,如下圖所示:通常是在監(jiān)督式微調(diào)(SFT)中引入大量的思維鏈(COT)示例,通過示例和復(fù)雜的神經(jīng)網(wǎng)絡(luò)獎勵模型,如過程獎勵模型(PRM),來教會模型如何進(jìn)行思維鏈?zhǔn)降乃伎?/strong>。
有時還會結(jié)合蒙特卡洛樹搜索(MCTS),使模型能夠在多種可能性中尋找最佳答案。
DeepSeek-R1-Zero 采用了前所未有的策略,即“純”強化學(xué)習(xí)路徑,完全摒棄了預(yù)先設(shè)定的思維鏈模板(Chain of Thought)和監(jiān)督式微調(diào)(SFT),僅通過簡單的獎勵和懲罰信號來優(yōu)化模型的行為。
這好比是讓一個天才兒童在沒有范例和指導(dǎo)的情況下,僅通過不斷的嘗試和接收反饋來自學(xué)解題。
DeepSeek-R1-Zero 僅配備了一套基礎(chǔ)的獎勵系統(tǒng),旨在激發(fā) AI 的推理能力。
這套系統(tǒng)的規(guī)則非常簡單,只有兩條:
準(zhǔn)確性獎勵:模型根據(jù)其響應(yīng)的正確與否來獲得獎勵或懲罰。正確回答得到加分,錯誤回答則扣分。評估標(biāo)準(zhǔn)也很直接:例如,在數(shù)學(xué)問題中,模型需要以特定的格式(如分?jǐn)?shù)和小數(shù))提供最終答案;在編程問題中,則通過編譯器根據(jù)預(yù)設(shè)的測試用例來生成反饋。
格式獎勵:模型必須將其思考過程放在特定的標(biāo)簽之間,以獲得格式獎勵。未能這樣做會扣分,反之則加分。
為了更準(zhǔn)確地觀察模型在強化學(xué)習(xí)(RL)過程中的自然發(fā)展,DeepSeek 甚至刻意將系統(tǒng)提示詞(如下圖所示)限制在這種結(jié)構(gòu)化的格式上,以避免任何針對特定內(nèi)容的偏見——比如強制模型進(jìn)行反思性推理或推廣特定的解題策略。
正是基于這樣一套簡化的規(guī)則,A I能夠在 GRPO(Group Relative Policy Optimization)的框架下進(jìn)行自我采樣和比較,從而實現(xiàn)自我提升。
GRPO 的方法論相當(dāng)直接,它通過比較組內(nèi)樣本來計算策略梯度,這樣不僅有效減少了訓(xùn)練過程中的不穩(wěn)定性,還提升了學(xué)習(xí)效率。
換句話說,可以將其類比為老師出題,模型對每個問題給出多個答案,然后根據(jù)之前提到的獎勵和懲罰規(guī)則對每個答案進(jìn)行評分,模型根據(jù)追求高分、避免低分的邏輯進(jìn)行自我更新。
整個流程大致如下:
輸入問題 → 模型產(chǎn)生多個答案 → 規(guī)則系統(tǒng)進(jìn)行評分 → GRPO計算相對優(yōu)勢 → 模型更新
這種直接的訓(xùn)練方法帶來了幾個明顯的優(yōu)勢。首先,訓(xùn)練效率得到了顯著提升,整個流程可以在更短的時間內(nèi)完成。其次,資源消耗減少,因為省去了SFT和復(fù)雜的獎勵模型,計算資源的需求大幅降低。
更為關(guān)鍵的是,這種方法確實讓模型學(xué)會了如何思考,并且是通過“頓悟”這種方式來學(xué)習(xí)的。
2、用自己的語言,在“頓悟”中學(xué)習(xí)
我們是如何判斷模型在這樣一套“原始”方法下真正學(xué)會了“思考”的呢?
研究論文中記錄了一個令人矚目的例子:在解決一個包含復(fù)雜數(shù)學(xué)表達(dá)式 √a - √(a + x) = x 的問題時,模型突然停下來并說道:"Wait, wait. Wait. That's an aha moment I can flag here"(等等、等等,這是一個值得標(biāo)記的頓悟時刻),然后它重新審視了整個解題過程。這種類似于人類頓悟的行為是自發(fā)產(chǎn)生的,而非預(yù)先編程的結(jié)果。
這種頓悟通常標(biāo)志著模型思維能力的飛躍。
根據(jù) DeepSeek 的研究,模型的進(jìn)步并非平滑漸進(jìn)的。在強化學(xué)習(xí)的過程中,模型的響應(yīng)長度會突然顯著增加,這些“跳躍點”往往伴隨著解題策略的本質(zhì)變化。這種模式與人類長時間思考后突然的領(lǐng)悟相似,暗示著某種深層的認(rèn)知突破。
在這種伴隨頓悟的能力提升下,R1-Zero 在備受數(shù)學(xué)界推崇的 AIME 競賽中的正確率從最初的 15.6% 飆升至 71.0%,而在對同一問題進(jìn)行多次嘗試后,準(zhǔn)確率甚至達(dá)到了 86.7%。這不僅僅是看過問題就能解決那么簡單—— AIME 的題目需要深入的數(shù)學(xué)直覺和創(chuàng)造性思維,而非機械的公式應(yīng)用。模型的這種提升表明它必須具備推理能力。
另一個證明模型確實通過這種方法學(xué)會了推理的核心證據(jù)是,模型響應(yīng)的長度會根據(jù)問題的復(fù)雜度自然調(diào)整。這種自適應(yīng)行為顯示,模型并非簡單套用模板,而是真正理解了問題的難度,并相應(yīng)地投入更多的“思考時間”。就像人類在處理簡單加法和復(fù)雜積分時會自然調(diào)整思考時間一樣,R1-Zero 展現(xiàn)出了類似的智慧。
或許最有說服力的是模型展現(xiàn)出的遷移學(xué)習(xí)能力。在完全不同的編程競賽平臺 Codeforces 上,R1-Zero 達(dá)到了超過 96.3% 的人類選手水平。這種跨領(lǐng)域的表現(xiàn)說明,模型并非只是在記憶特定領(lǐng)域的解題技巧,而是掌握了某種普遍適用的推理能力。
3、一個聰明,但口齒不清的天才
盡管 R1-Zero 展現(xiàn)了令人矚目的推理技能,但研究人員很快便發(fā)現(xiàn)了一個重大缺陷:其思維過程對人類來說往往晦澀難懂。
論文中直言不諱地提到了這個完全通過強化學(xué)習(xí)訓(xùn)練出來的模型存在“可讀性差”和“語言混雜”的問題。
這一現(xiàn)象不難理解:R1-Zero 完全依賴獎勵和懲罰信號來優(yōu)化其行為,沒有人類提供的“標(biāo)準(zhǔn)答案”作為參照。這就好比一個天才兒童發(fā)明了一種獨特的解題方法,雖然有效,但在向他人解釋時卻顯得語無倫次。它在解題時可能會混用多種語言,或者創(chuàng)造出一種獨特的表達(dá)方式,這些都使得其推理過程難以追蹤和理解。
為了解決這個問題,研究團隊開發(fā)了改進(jìn)版的 DeepSeek-R1。通過引入傳統(tǒng)的“冷啟動數(shù)據(jù)”和多階段訓(xùn)練流程,R1 不僅保留了強大的推理能力,還學(xué)會了以人類容易理解的方式表達(dá)其思維過程。這就像為那位天才兒童配備了一位溝通教練,指導(dǎo)他如何清晰表達(dá)自己的想法。
經(jīng)過這樣的訓(xùn)練之后,DeepSeek-R1 展現(xiàn)出了與 OpenAI o1 相媲美甚至在某些方面更勝一籌的性能。在 MATH 基準(zhǔn)測試中,R1 達(dá)到了 77.5% 的準(zhǔn)確率,與 o1 的 77.3% 不相上下;在更具挑戰(zhàn)性的 AIME 2024上,R1 的準(zhǔn)確率達(dá)到了 71.3%,超過了 o1 的 71.0%。在編程領(lǐng)域,R1 在 Codeforces 的評測中達(dá)到了 2441分,超越了 96.3% 的人類參與者。
然而,DeepSeek-R1 Zero 的潛力似乎更為巨大。在 AIME 2024 測試中,當(dāng)使用多數(shù)投票機制時,其準(zhǔn)確率達(dá)到了 86.7%,這個成績甚至超越了 OpenAI 的 o1-0912。這種“多次嘗試后準(zhǔn)確性提高”的特性暗示 R1-Zero 可能掌握了一種基礎(chǔ)的推理框架,而不僅僅是記憶解題模式。
論文中的數(shù)據(jù)顯示,從 MATH-500 到 AIME,再到 GSM8K,模型展現(xiàn)了穩(wěn)定的跨領(lǐng)域性能,特別是在那些需要創(chuàng)造性思維的復(fù)雜問題上。這種廣泛的性能表明 R1-Zero 可能確實培養(yǎng)出了一種基礎(chǔ)的推理能力,這與專注于特定任務(wù)優(yōu)化的傳統(tǒng)模型形成了鮮明對比。
因此,盡管表達(dá)不夠清晰,但或許 DeepSeek-R1-Zero 才是真正理解推理的“天才”。
4、純粹強化學(xué)習(xí),也許才是通向 AGI 的意外捷徑
DeepSeek-R1 的發(fā)布之所以令業(yè)界矚目,并將焦點轉(zhuǎn)向純強化學(xué)習(xí)方法,是因為它實質(zhì)上為 AI 的進(jìn)化開辟了一條新道路。
R1-Zero——這個完全依賴強化學(xué)習(xí)訓(xùn)練而成的 AI 模型,展現(xiàn)了令人矚目的通用推理能力。它不僅在數(shù)學(xué)競賽中取得了卓越成績,更重要的是,R1-Zero 并非僅僅在模仿思考,而是真正培育出了一種推理能力。
在傳統(tǒng)的訓(xùn)練方法中,尤其是在監(jiān)督式微調(diào)中,使用預(yù)先訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)來評估輸出質(zhì)量時,模型可能會學(xué)會觸發(fā)獎勵模型的特定模式,生成符合獎勵模型“口味”的內(nèi)容,而非真正提升推理能力。換言之,AI 系統(tǒng)可能找到了一種獲得高獎勵但同時偏離訓(xùn)練目標(biāo)的方法。這就是我們所說的獎勵欺騙(reward hacking)。然而,R1-Zero 通過極其簡單的獎勵規(guī)則,幾乎避免了獎勵欺騙的可能性——規(guī)則太過簡單,沒有“口味”可以模仿。在這種情況下,模型發(fā)展出的推理能力更加可靠,也更加自然。
這一發(fā)現(xiàn)可能會顛覆我們對機器學(xué)習(xí)的傳統(tǒng)認(rèn)知:傳統(tǒng)的 AI 訓(xùn)練方法可能一直在犯一個根本性的錯誤,我們過于專注于讓 AI 模仿人類的思維方式,而業(yè)界或許需要重新審視監(jiān)督學(xué)習(xí)在 AI 發(fā)展中的角色。通過純強化學(xué)習(xí),AI 系統(tǒng)似乎能夠發(fā)展出更加原生的問題解決能力,而不是局限于預(yù)設(shè)的解決方案框架。
盡管 R1-Zero 在輸出的可讀性上存在顯著不足,但這個“不足”本身可能正反映了其思維方式的獨特性。就像一個天才兒童創(chuàng)造了自己的解題方法,卻難以用常規(guī)語言表達(dá)一樣。這提示我們:真正的通用人工智能可能需要一種完全不同于人類的認(rèn)知方式。
這才是強化學(xué)習(xí)的真正精髓。正如著名教育家皮亞杰所提出的理論:真正的理解來自于主動建構(gòu),而非被動接受。
本文轉(zhuǎn)載自公眾號玄姐聊AGI 作者:玄姐
原文鏈接:??https://mp.weixin.qq.com/s/PzgzuiO3qvb6_n26vte8Yw??