國產(chǎn)大模型DeepSeek-V3一夜火爆全球,671B的MoE,訓(xùn)練成本僅558萬美元
今天,一個國產(chǎn)大模型火遍了世界。
打開 X,滿眼都是討論 DeepSeek-V3 的推文,而其中最熱門的話題之一是這個參數(shù)量高達 671B 的大型語言模型的預(yù)訓(xùn)練過程竟然只用了 266.4 萬 H800 GPU Hours,再加上上下文擴展與后訓(xùn)練的訓(xùn)練,總共也只有 278.8 H800 GPU Hours。相較之下,Llama 3 系列模型的計算預(yù)算則多達 3930 萬 H100 GPU Hours—— 如此計算量足可訓(xùn)練 DeepSeek-V3 至少 15 次。
雖然相對于其它前沿大模型, DeepSeek-V3 消耗的訓(xùn)練計算量較少,但其性能卻足以比肩乃至更優(yōu)。
據(jù)最新發(fā)布的 DeepSeek-V3 技術(shù)報告,在英語、代碼、數(shù)學(xué)、漢語以及多語言任務(wù)上,基礎(chǔ)模型 DeepSeek-V3 Base 的表現(xiàn)非常出色,在 AGIEval、CMath、MMMLU-non-English 等一些任務(wù)上甚至遠遠超過其它開源大模型。就算與 GPT-4o 和 Claude 3.5 Sonnet 這兩大領(lǐng)先的閉源模型相比,DeepSeek-V3 也毫不遜色,并且在 MATH 500、AIME 2024、Codeforces 上都有明顯優(yōu)勢。
DeepSeek-V3 的驚人表現(xiàn)主要是得益于其采用的 MLA(多頭隱注意力)和 DeepSeekMoE 架構(gòu)。此前,這些技術(shù)已經(jīng)在 DeepSeek-V2 上得到了驗證,現(xiàn)在也成為了 DeepSeek-V3 實現(xiàn)高效推理和經(jīng)濟訓(xùn)練的基石。
此外,DeepSeek-V3 率先采用了無輔助損失的負載平衡策略,并設(shè)定了多 token 預(yù)測訓(xùn)練目標,以實現(xiàn)更強大的性能。他們使用的預(yù)訓(xùn)練 token 量為 14.8 萬億,然后還進行了監(jiān)督式微調(diào)和強化學(xué)習(xí)。
正是在這些技術(shù)創(chuàng)新的基礎(chǔ)上,開源的 DeepSeek-V3 一問世便收獲了無數(shù)好評。
Meta AI 研究科學(xué)家田淵棟對 DeepSeek-V3 各個方向上的進展都大加贊賞。
著名 AI 科學(xué)家 Andrej Karpathy 也表示,如果該模型的優(yōu)良表現(xiàn)能夠得到廣泛驗證,那么這將是資源有限情況下對研究和工程的一次出色展示。
正在創(chuàng)業(yè)(Lepton AI)的著名研究者賈揚清也給出了自己的深度評價。他認為 DeepSeek-V3 的誕生標志著我們正式進入了分布式推理的疆域,畢竟 671B 的參數(shù)量已經(jīng)無法放入單臺 GPU 了。
DeepSeek-V3 再一次引爆了人們對開源模型的熱情。OpenRouter 表示自昨天發(fā)布以來,該平臺上 DeepSeek-V3 的使用量已經(jīng)翻了 3 倍!
一些已經(jīng)嘗鮮 DeepSeek-V3 的用戶已經(jīng)開始在網(wǎng)上分享他們的體驗。
接下來我們看技術(shù)報告內(nèi)容。
- 報告地址:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
- 項目地址:https://github.com/deepseek-ai/DeepSeek-V3
- Hugging Face:https://huggingface.co/collections/deepseek-ai/deepseek-v3-676bc4546fb4876383c4208b
架構(gòu)
為了高效的推理和經(jīng)濟的訓(xùn)練,DeepSeek-V3 采用了用于高效推理的多頭潛在注意力(MLA)(DeepSeek-AI,2024c)和用于經(jīng)濟訓(xùn)練的 DeepSeekMoE(Dai et al., 2024),并提出了多 token 預(yù)測(MTP)訓(xùn)練目標,以提高評估基準的整體性能。對于其他細節(jié),DeepSeek-V3 遵循 DeepSeekV2(DeepSeek-AI,2024c)的設(shè)置。
與 DeepSeek-V2 相比,一個例外是 DeepSeek-V3 為 DeepSeekMoE 額外引入了輔助無損耗負載平衡策略(Wang et al., 2024a),以減輕因確保負載平衡而導(dǎo)致的性能下降。圖 2 展示了 DeepSeek-V3 的基本架構(gòu):
MTP 將預(yù)測范圍擴展到每個位置的多個未來 token。一方面,MTP 目標使訓(xùn)練信號更加密集,并且可以提高數(shù)據(jù)效率。另一方面,MTP 可以使模型預(yù)規(guī)劃其表征,以便更好地預(yù)測未來的 token。
預(yù)訓(xùn)練
數(shù)據(jù)構(gòu)建
與 DeepSeek-V2 相比,V3 通過提高數(shù)學(xué)和編程樣本的比例來優(yōu)化預(yù)訓(xùn)練語料庫,同時將多語言覆蓋范圍擴大到英語和中文之外。此外,新版本對數(shù)據(jù)處理流程也進行了改進,以最大限度地減少冗余,同時保持語料庫的多樣性。DeepSeek-V3 的訓(xùn)練語料在 tokenizer 中包含 14.8T 個高質(zhì)量且多樣化的 token。
超參數(shù)
模型超參數(shù):本文將 Transformer 層數(shù)設(shè)置為 61,隱藏層維度設(shè)置為 7168。所有可學(xué)習(xí)參數(shù)均以標準差 0.006 隨機初始化。在 MLA 中,本文將注意力頭 ??_? 的數(shù)量設(shè)置為 128,每個頭的維度 ??_? 設(shè)置為 128。
此外,本文用 MoE 層替換除前三層之外的所有 FFN。每個 MoE 層由 1 個共享專家和 256 個路由專家組成,其中每個專家的中間隱藏維度為 2048。在路由專家中,每個 token 將激活 8 個專家,并確保每個 token 最多發(fā)送到 4 個節(jié)點。
與 DeepSeek-V2 一樣,DeepSeek-V3 也在壓縮潛在向量之后使用了額外的 RMNSNorm 層,并在寬度 bottlenecks 處乘以額外的縮放因子。在這種配置下,DeepSeek-V3 包含總共 671B 個參數(shù),其中每個 token 激活 37B 個。
長上下文擴展
本文采用與 DeepSeek-V2 類似的方法,在 DeepSeek-V3 中啟用長上下文功能。在預(yù)訓(xùn)練階段之后,應(yīng)用 YaRN 進行上下文擴展,并執(zhí)行兩個額外的訓(xùn)練階段,每個階段包含 1000 個 step,以逐步將上下文窗口從 4K 擴展到 32K,然后再擴展到 128K。
通過這種兩階段擴展訓(xùn)練,DeepSeek-V3 能夠處理長達 128K 的輸入,同時保持強勁的性能。圖 8 表明,經(jīng)過監(jiān)督微調(diào)后,DeepSeek-V3 在大海撈針 (NIAH) 測試中取得了顯著的性能,在長達 128K 的上下文窗口長度中表現(xiàn)出一致的穩(wěn)健性。
評估
表 3 將 DeepSeek-V3 的基礎(chǔ)模型與 SOTA 性能的開源基礎(chǔ)模型進行了比較,包括 DeepSeek-V2-Base、Qwen2.5 72B Base 和 LLaMA-3.1 405B Base。
總體而言,DeepSeek-V3-Base 全面超越 DeepSeek-V2-Base 和 Qwen2.5 72B Base,并在大多數(shù)基準測試中超越 LLaMA-3.1 405B Base,基本上成為最強大的開源模型。
具體來說,本文將 DeepSeek-V3-Base 與其他開源基礎(chǔ)模型分別進行了比較。
(1)與 DeepSeek-V2-Base 相比,由于模型架構(gòu)的改進,模型大小和訓(xùn)練 token 的擴大以及數(shù)據(jù)質(zhì)量的提升,DeepSeek-V3-Base 取得了預(yù)期的、更好的性能。
(2)與目前最先進的中文開源模型 Qwen2.5 72B Base 相比,在激活參數(shù)只有其一半的情況下,DeepSeek-V3-Base 也表現(xiàn)出了明顯的優(yōu)勢,尤其是在英文、多語言、代碼和數(shù)學(xué)基準測試中。對于中文基準測試,除了中文多學(xué)科多項選擇題 CMMLU 之外,DeepSeek-V3-Base 也取得了優(yōu)于 Qwen2.5 72B 的性能。
(3)與目前最大的開源模型 LLaMA-3.1 405B Base(激活參數(shù)量是其 11 倍)相比,DeepSeek-V3-Base 在多語言、代碼和數(shù)學(xué)基準測試中也表現(xiàn)出了更好的性能。在英語和中文基準測試中,DeepSeek-V3-Base 表現(xiàn)出了相當或更好的性能,尤其是在 BBH、MMLU-series、DROP、C-Eval、CMMLU 和 CCPM 上表現(xiàn)優(yōu)異。
由于高效的架構(gòu)和全面的工程優(yōu)化,DeepSeekV3 實現(xiàn)了極高的訓(xùn)練效率?;谟?xùn)練框架和基礎(chǔ)設(shè)施,在 V3 上訓(xùn)練每萬億個 token 只需要 180K H800 GPU 小時,這比訓(xùn)練 72B 或 405B 密集模型便宜得多。
表 4 展示了 MTP 策略的消融結(jié)果,作者在兩個不同規(guī)模的基線模型上驗證了 MTP 策略。從表中我們可以觀察到,MTP 策略在大多數(shù)評估基準上持續(xù)提高了模型性能。
在接下來的文章中,作者介紹了后訓(xùn)練,包括監(jiān)督微調(diào)、強化學(xué)習(xí)等內(nèi)容。
了解更多內(nèi)容,請參考原論文。