自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

國產(chǎn)大模型DeepSeek-V3一夜火爆全球,671B的MoE,訓(xùn)練成本僅558萬美元

人工智能
DeepSeek-V3-Base 全面超越 DeepSeek-V2-Base 和 Qwen2.5 72B Base,并在大多數(shù)基準測試中超越 LLaMA-3.1 405B Base,基本上成為最強大的開源模型。

今天,一個國產(chǎn)大模型火遍了世界。

打開 X,滿眼都是討論 DeepSeek-V3 的推文,而其中最熱門的話題之一是這個參數(shù)量高達 671B 的大型語言模型的預(yù)訓(xùn)練過程竟然只用了 266.4 萬 H800 GPU Hours,再加上上下文擴展與后訓(xùn)練的訓(xùn)練,總共也只有 278.8 H800 GPU Hours。相較之下,Llama 3 系列模型的計算預(yù)算則多達 3930 萬 H100 GPU Hours—— 如此計算量足可訓(xùn)練 DeepSeek-V3 至少 15 次。

圖片

雖然相對于其它前沿大模型, DeepSeek-V3 消耗的訓(xùn)練計算量較少,但其性能卻足以比肩乃至更優(yōu)。

據(jù)最新發(fā)布的 DeepSeek-V3 技術(shù)報告,在英語、代碼、數(shù)學(xué)、漢語以及多語言任務(wù)上,基礎(chǔ)模型 DeepSeek-V3 Base 的表現(xiàn)非常出色,在 AGIEval、CMath、MMMLU-non-English 等一些任務(wù)上甚至遠遠超過其它開源大模型。就算與 GPT-4o 和 Claude 3.5 Sonnet 這兩大領(lǐng)先的閉源模型相比,DeepSeek-V3 也毫不遜色,并且在 MATH 500、AIME 2024、Codeforces 上都有明顯優(yōu)勢。

圖片

DeepSeek-V3 的驚人表現(xiàn)主要是得益于其采用的 MLA(多頭隱注意力)和 DeepSeekMoE 架構(gòu)。此前,這些技術(shù)已經(jīng)在 DeepSeek-V2 上得到了驗證,現(xiàn)在也成為了 DeepSeek-V3 實現(xiàn)高效推理和經(jīng)濟訓(xùn)練的基石。

此外,DeepSeek-V3 率先采用了無輔助損失的負載平衡策略,并設(shè)定了多 token 預(yù)測訓(xùn)練目標,以實現(xiàn)更強大的性能。他們使用的預(yù)訓(xùn)練 token 量為 14.8 萬億,然后還進行了監(jiān)督式微調(diào)和強化學(xué)習(xí)。

正是在這些技術(shù)創(chuàng)新的基礎(chǔ)上,開源的 DeepSeek-V3 一問世便收獲了無數(shù)好評。

圖片

Meta AI 研究科學(xué)家田淵棟對 DeepSeek-V3 各個方向上的進展都大加贊賞。

圖片

著名 AI 科學(xué)家 Andrej Karpathy 也表示,如果該模型的優(yōu)良表現(xiàn)能夠得到廣泛驗證,那么這將是資源有限情況下對研究和工程的一次出色展示。

圖片

正在創(chuàng)業(yè)(Lepton AI)的著名研究者賈揚清也給出了自己的深度評價。他認為 DeepSeek-V3 的誕生標志著我們正式進入了分布式推理的疆域,畢竟 671B 的參數(shù)量已經(jīng)無法放入單臺 GPU 了。

圖片

DeepSeek-V3 再一次引爆了人們對開源模型的熱情。OpenRouter 表示自昨天發(fā)布以來,該平臺上 DeepSeek-V3 的使用量已經(jīng)翻了 3 倍!

圖片

一些已經(jīng)嘗鮮 DeepSeek-V3 的用戶已經(jīng)開始在網(wǎng)上分享他們的體驗。

圖片

接下來我們看技術(shù)報告內(nèi)容。

圖片


  • 報告地址:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
  • 項目地址:https://github.com/deepseek-ai/DeepSeek-V3
  • Hugging Face:https://huggingface.co/collections/deepseek-ai/deepseek-v3-676bc4546fb4876383c4208b

架構(gòu) 

為了高效的推理和經(jīng)濟的訓(xùn)練,DeepSeek-V3 采用了用于高效推理的多頭潛在注意力(MLA)(DeepSeek-AI,2024c)和用于經(jīng)濟訓(xùn)練的 DeepSeekMoE(Dai et al., 2024),并提出了多 token 預(yù)測(MTP)訓(xùn)練目標,以提高評估基準的整體性能。對于其他細節(jié),DeepSeek-V3 遵循 DeepSeekV2(DeepSeek-AI,2024c)的設(shè)置。

與 DeepSeek-V2 相比,一個例外是 DeepSeek-V3 為 DeepSeekMoE 額外引入了輔助無損耗負載平衡策略(Wang et al., 2024a),以減輕因確保負載平衡而導(dǎo)致的性能下降。圖 2 展示了 DeepSeek-V3 的基本架構(gòu):

圖片

MTP 將預(yù)測范圍擴展到每個位置的多個未來 token。一方面,MTP 目標使訓(xùn)練信號更加密集,并且可以提高數(shù)據(jù)效率。另一方面,MTP 可以使模型預(yù)規(guī)劃其表征,以便更好地預(yù)測未來的 token。

圖片

預(yù)訓(xùn)練

數(shù)據(jù)構(gòu)建

與 DeepSeek-V2 相比,V3 通過提高數(shù)學(xué)和編程樣本的比例來優(yōu)化預(yù)訓(xùn)練語料庫,同時將多語言覆蓋范圍擴大到英語和中文之外。此外,新版本對數(shù)據(jù)處理流程也進行了改進,以最大限度地減少冗余,同時保持語料庫的多樣性。DeepSeek-V3 的訓(xùn)練語料在 tokenizer 中包含 14.8T 個高質(zhì)量且多樣化的 token。

超參數(shù)

模型超參數(shù):本文將 Transformer 層數(shù)設(shè)置為 61,隱藏層維度設(shè)置為 7168。所有可學(xué)習(xí)參數(shù)均以標準差 0.006 隨機初始化。在 MLA 中,本文將注意力頭 ??_? 的數(shù)量設(shè)置為 128,每個頭的維度 ??_? 設(shè)置為 128。

此外,本文用 MoE 層替換除前三層之外的所有 FFN。每個 MoE 層由 1 個共享專家和 256 個路由專家組成,其中每個專家的中間隱藏維度為 2048。在路由專家中,每個 token 將激活 8 個專家,并確保每個 token 最多發(fā)送到 4 個節(jié)點。

與 DeepSeek-V2 一樣,DeepSeek-V3 也在壓縮潛在向量之后使用了額外的 RMNSNorm 層,并在寬度 bottlenecks 處乘以額外的縮放因子。在這種配置下,DeepSeek-V3 包含總共 671B 個參數(shù),其中每個 token 激活 37B 個。

長上下文擴展

本文采用與 DeepSeek-V2 類似的方法,在 DeepSeek-V3 中啟用長上下文功能。在預(yù)訓(xùn)練階段之后,應(yīng)用 YaRN 進行上下文擴展,并執(zhí)行兩個額外的訓(xùn)練階段,每個階段包含 1000 個 step,以逐步將上下文窗口從 4K 擴展到 32K,然后再擴展到 128K。

通過這種兩階段擴展訓(xùn)練,DeepSeek-V3 能夠處理長達 128K 的輸入,同時保持強勁的性能。圖 8 表明,經(jīng)過監(jiān)督微調(diào)后,DeepSeek-V3 在大海撈針 (NIAH) 測試中取得了顯著的性能,在長達 128K 的上下文窗口長度中表現(xiàn)出一致的穩(wěn)健性。

圖片

評估

表 3 將 DeepSeek-V3 的基礎(chǔ)模型與 SOTA 性能的開源基礎(chǔ)模型進行了比較,包括 DeepSeek-V2-Base、Qwen2.5 72B Base 和 LLaMA-3.1 405B Base。

總體而言,DeepSeek-V3-Base 全面超越 DeepSeek-V2-Base 和 Qwen2.5 72B Base,并在大多數(shù)基準測試中超越 LLaMA-3.1 405B Base,基本上成為最強大的開源模型。

圖片

具體來說,本文將 DeepSeek-V3-Base 與其他開源基礎(chǔ)模型分別進行了比較。

(1)與 DeepSeek-V2-Base 相比,由于模型架構(gòu)的改進,模型大小和訓(xùn)練 token 的擴大以及數(shù)據(jù)質(zhì)量的提升,DeepSeek-V3-Base 取得了預(yù)期的、更好的性能。

(2)與目前最先進的中文開源模型 Qwen2.5 72B Base 相比,在激活參數(shù)只有其一半的情況下,DeepSeek-V3-Base 也表現(xiàn)出了明顯的優(yōu)勢,尤其是在英文、多語言、代碼和數(shù)學(xué)基準測試中。對于中文基準測試,除了中文多學(xué)科多項選擇題 CMMLU 之外,DeepSeek-V3-Base 也取得了優(yōu)于 Qwen2.5 72B 的性能。 

(3)與目前最大的開源模型 LLaMA-3.1 405B Base(激活參數(shù)量是其 11 倍)相比,DeepSeek-V3-Base 在多語言、代碼和數(shù)學(xué)基準測試中也表現(xiàn)出了更好的性能。在英語和中文基準測試中,DeepSeek-V3-Base 表現(xiàn)出了相當或更好的性能,尤其是在 BBH、MMLU-series、DROP、C-Eval、CMMLU 和 CCPM 上表現(xiàn)優(yōu)異。

由于高效的架構(gòu)和全面的工程優(yōu)化,DeepSeekV3 實現(xiàn)了極高的訓(xùn)練效率?;谟?xùn)練框架和基礎(chǔ)設(shè)施,在 V3 上訓(xùn)練每萬億個 token 只需要 180K H800 GPU 小時,這比訓(xùn)練 72B 或 405B 密集模型便宜得多。

表 4 展示了 MTP 策略的消融結(jié)果,作者在兩個不同規(guī)模的基線模型上驗證了 MTP 策略。從表中我們可以觀察到,MTP 策略在大多數(shù)評估基準上持續(xù)提高了模型性能。

圖片

在接下來的文章中,作者介紹了后訓(xùn)練,包括監(jiān)督微調(diào)、強化學(xué)習(xí)等內(nèi)容。

了解更多內(nèi)容,請參考原論文。

責(zé)任編輯:姜華 來源: 機器之心
相關(guān)推薦

2024-12-27 10:27:58

2025-04-03 15:57:48

2025-02-17 03:00:00

LLMsMoELLM

2024-05-07 08:04:09

代碼格式化工具

2024-03-18 10:02:00

AI開源

2024-12-27 12:37:18

2025-02-19 10:49:30

2024-02-27 16:30:37

OpenAIGPT-4Mistral AI

2024-07-08 13:11:40

2025-03-26 10:38:40

2025-04-03 06:30:00

2025-02-03 13:55:20

2025-03-10 07:00:00

阿里開源QwQ-32B

2020-09-04 16:38:01

網(wǎng)絡(luò)攻擊勒索軟件數(shù)據(jù)泄露

2025-03-06 08:11:25

2025-05-01 10:33:59

2025-02-14 09:10:47

2025-02-12 08:30:18

點贊
收藏

51CTO技術(shù)棧公眾號