自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek發(fā)布最新論文,5大殺手锏讓大模型訓(xùn)練、推理暴漲

人工智能 新聞
全球著名開源大模型平臺DeepSeek在huggingface 發(fā)布了,超強開源模型V3的論文。

昨天,全球著名開源大模型平臺DeepSeek在Huggingface發(fā)布了,超強開源模型V3的論文。

主要從硬件架構(gòu)和模型設(shè)計的雙視角探討如何在不犧牲性能的前提下實現(xiàn)更高效的大規(guī)模訓(xùn)練和推理以突破硬件瓶頸。

其中,DeepSeek-MoE和多頭潛在注意力、FP8混合精度訓(xùn)練以及多標(biāo)記預(yù)測等成為關(guān)鍵創(chuàng)新技術(shù)。

圖片

論文地址:https://huggingface.co/papers/2505.09343。

隨著OpenAI GPT-3、DeepSeek-R1、Claude-3.7 Sonnet等前沿模型的出現(xiàn),對硬件、算力資源的需求快速上升。在內(nèi)存方面,大模型對內(nèi)存資源的需求每年增長超過1000%,但高速內(nèi)存容量的增長速度卻極為緩慢,每年通常不到50%。

這一內(nèi)存供需失衡的問題嚴重制約了大模型的進一步發(fā)展。在計算效率上,傳統(tǒng)的計算架構(gòu)難以滿足大規(guī)模模型訓(xùn)練和推理的高效需求。

在互連帶寬方面,現(xiàn)有網(wǎng)絡(luò)架構(gòu)在處理大規(guī)模數(shù)據(jù)傳輸時也面臨著帶寬不足和延遲過高等難題,而DeepSeek-V3通過軟件、硬件創(chuàng)新解決了這些難題。

DeepSeek-MoE和多頭潛在注意力

DeepSeek-MoE充分挖掘了混合專家(MoE)架構(gòu)的潛力,其優(yōu)勢主要體現(xiàn)在兩方面。其一,在訓(xùn)練過程中,通過選擇性地激活專家參數(shù)的子集,MoE模型能夠在大幅增加總參數(shù)數(shù)量的同時保持相對適度的計算需求。

圖片

例如,DeepSeek-V2擁有2360億參數(shù),但每個token僅激活210億參數(shù);而DeepSeek-V3擴展到了6710億參數(shù),幾乎是V2的三倍,可每個token的激活量僅為370億。相比之下,像Qwen2.5-720億和LLaMA3.1-4050億等密集模型在訓(xùn)練期間則需要激活所有參數(shù)。

數(shù)據(jù)顯示,DeepSeekV3的總計算成本約為每token 250 GFLOPS,而720億參數(shù)的密集模型需要394 GFLOPS,4050億參數(shù)的密集模型更是需要2448 GFLOPS。這表明MoE模型在計算資源消耗量少一個數(shù)量級的情況下,能夠?qū)崿F(xiàn)與密集模型相當(dāng)甚至更優(yōu)的性能。

圖片

在個人使用和本地部署場景中,MoE模型同樣展現(xiàn)出獨特優(yōu)勢。由于每個請求僅激活一小部分參數(shù),內(nèi)存和計算需求大幅降低。

例如,搭載AISoC芯片的個人電腦,在運行DeepSeek-V2(2360億參數(shù))時,推理過程中僅激活210億參數(shù),就能達到近每秒20個Token甚至更高的速度,這對于個人使用來說已經(jīng)綽綽有余。而類似能力(如700億參數(shù))的密集模型在相同硬件條件下,通常只能達到個位數(shù)的TPS。

多頭潛在注意力(MLA)架構(gòu)則通過壓縮鍵值(KV)緩存顯著降低了內(nèi)存消耗。它利用投影矩陣將所有注意力頭的KV表示壓縮成一個更小的潛在向量,并與模型聯(lián)合訓(xùn)練。在推理過程中,只需要緩存該潛在向量,與存儲所有注意力頭的KV緩存相比,大大減少了內(nèi)存占用。

通過采用MLA,DeepSeek-V3顯著減少了KV緩存大小,每個token僅需70KB,遠低于LLaMA-3.1 4050億參數(shù)模型的516KB和Qwen-2.5 720億參數(shù)模型的327KB。

圖片

此外,為進一步減小KV緩存的大小,DeepSeek還提出了多種方法。例如共享KV,即多個注意力頭共享一組KV配對,以顯著壓縮KV存儲,代表性方法包括GQA和MQA;

窗口KV,對于長序列,僅在緩存中保留KV配對的滑動窗口;量化壓縮,使用low-bit存儲KV配對,進一步減少內(nèi)存使用。

FP8混合精度訓(xùn)練方法

在訓(xùn)練技術(shù)方面,DeepSeek-V3引入了FP8混合精度訓(xùn)練技術(shù),這在保證模型質(zhì)量的同時大幅降低了計算成本,使得大規(guī)模訓(xùn)練更加經(jīng)濟可行。雖然GPTQ和AWQ等量化技術(shù)已將位寬減少到8位、4位甚至更低,但這些技術(shù)主要應(yīng)用于推理階段以節(jié)省內(nèi)存,在訓(xùn)練階段的應(yīng)用相對較少。在DeepSeek-V3之前,幾乎沒有利用FP8進行訓(xùn)練的開源大型模型。

DeepSeek通過基礎(chǔ)設(shè)施和算法團隊之間的深度合作,為MoE模型開發(fā)了與FP8兼容的訓(xùn)練框架,在訓(xùn)練管道中使用FP8精度的前向和后向過程計算組件。然而,要充分發(fā)揮FP8在加速訓(xùn)練方面的巨大潛力,還需要解決一些硬件限制。

圖片

例如,F(xiàn)P8在Tensor Core中使用約束累加精度,這會影響訓(xùn)練大型模型的穩(wěn)定性;細粒度量化在傳輸部分結(jié)果時會引入大量的反量化開銷,導(dǎo)致頻繁的數(shù)據(jù)移動,降低計算效率并使硬件利用率復(fù)雜化。

針對這些問題,DeepSeek也對未來硬件設(shè)計提出了相應(yīng)建議。在提高累積精度方面,硬件應(yīng)改進并調(diào)整Accumulation Register精度到適當(dāng)?shù)闹担ㄈ鏔P32),或支持可配置的Accumulation Precision;

在對原生細粒度量化的支持方面,硬件應(yīng)支持原生細粒度量化,使Tensor Core能夠接收縮放因子并通過組縮放實現(xiàn)矩陣乘法,避免頻繁的數(shù)據(jù)移動以減少去量化開銷。

在網(wǎng)絡(luò)通信環(huán)節(jié),DeepSeek-V3架構(gòu)采用低精度壓縮進行網(wǎng)絡(luò)通信。在EP并行期間,使用細粒度的FP8量化來調(diào)度令牌,與BF16相比,通信量減少了50%,顯著縮短了通信時間。DeepSeek建議,為FP8或自定義精度格式定制的壓縮和解壓縮單元提供本機支持,是未來硬件的可行發(fā)展方向,這有助于最大限度地減少帶寬需求并簡化通信管道,大幅提升MoE訓(xùn)練等帶寬密集型任務(wù)的效率。

多標(biāo)記預(yù)測

在傳統(tǒng)的自回歸語言模型中,推理過程是逐個生成標(biāo)記的。每次生成一個標(biāo)記后,模型需要根據(jù)已生成的上下文信息來預(yù)測下一個標(biāo)記。這種順序生成的方式雖然能夠保證生成的連貫性和準(zhǔn)確性,但其推理速度受限于每個標(biāo)記的生成時間。隨著模型規(guī)模的增大和上下文長度的增加,這種順序生成的方式會顯著降低推理效率,尤其是在需要快速生成長文本的場景中。

為了克服這一瓶頸,DeepSeek-V3引入了多標(biāo)記預(yù)測(MTP)框架。該框架允許模型在每個推理步驟中同時生成多個候選標(biāo)記,而不是僅僅生成一個標(biāo)記,這些候選標(biāo)記可以并行計算和驗證,從而顯著減少了生成整個序列所需的時間。

MTP框架通過引入多個輕量級的預(yù)測模塊來實現(xiàn)這一目標(biāo),每個預(yù)測模塊負責(zé)生成一個特定位置的標(biāo)記。例如,在生成當(dāng)前標(biāo)記的同時,MTP模塊可以預(yù)測下一個標(biāo)記、下下個標(biāo)記等,這些預(yù)測模塊共享模型的上下文信息,但各自獨立生成標(biāo)記。通過這種方式,模型能夠在一次推理步驟中生成多個標(biāo)記,而不是逐個生成。

生成多個候選標(biāo)記后,MTP框架會通過并行驗證來確定哪些候選標(biāo)記是合理的。這一過程利用了模型的上下文信息和已生成的標(biāo)記,通過一系列的驗證步驟來評估每個候選標(biāo)記的合理性,最終模型會選擇最合適的標(biāo)記作為輸出。

實驗數(shù)據(jù)顯示,MTP模塊在預(yù)測下一個標(biāo)記時的接受率高達80%至90%,這意味著大多數(shù)情況下,模型能夠準(zhǔn)確預(yù)測下一個標(biāo)記,從而顯著提高了推理速度。

多平面雙層胖樹網(wǎng)絡(luò)降低算力集群成本

在AI基礎(chǔ)設(shè)施方面,DeepSeek為了降低集群網(wǎng)絡(luò)成本,使用多平面雙層胖樹網(wǎng)絡(luò),取代了傳統(tǒng)的三層胖樹拓撲結(jié)構(gòu)。

在DeepSeek-V3的訓(xùn)練過程中,部署了一個多平面胖樹(MPFT)橫向擴展網(wǎng)絡(luò)。每個節(jié)點配備8臺GPU和8個IB網(wǎng)卡,每個GPU-網(wǎng)卡對分配到不同的網(wǎng)絡(luò)平面。此外,每個節(jié)點還配備一個400 Gbps以太網(wǎng)RoCE網(wǎng)卡,連接到單獨的存儲網(wǎng)絡(luò)平面,用于訪問3FS分布式文件系統(tǒng)。

在橫向擴展網(wǎng)絡(luò)中,使用了64端口400G IB交換機,該拓撲理論上最多可支持16,384臺GPU,同時保留了雙層網(wǎng)絡(luò)的成本和延遲優(yōu)勢,但受政策和監(jiān)管限制,最終部署的GPU數(shù)量為2048臺。

圖片

由于IB ConnectX-7目前存在局限性,DeepSeek部署的MPFT網(wǎng)絡(luò)未能完全實現(xiàn)預(yù)期架構(gòu)。理想情況下,每個網(wǎng)卡(NIC)應(yīng)具有多個物理端口,每個端口連接到單獨的網(wǎng)絡(luò)平面,但通過端口綁定,共同作為單個邏輯接口向用戶公開。

從用戶角度看,單個隊列對(QP)可以在所有可用端口之間無縫地發(fā)送和接收消息,類似于數(shù)據(jù)包噴射。因此,來自同一QP的數(shù)據(jù)包可能會穿越不同的網(wǎng)絡(luò)路徑,并以無序方式到達接收方,這就需要網(wǎng)卡內(nèi)原生支持無序布局,以保證消息一致性并保留正確的排序語義。

例如,InfiniBand ConnectX-8原生支持四平面。若未來的網(wǎng)卡能夠完全支持高級多平面功能,雙層胖樹網(wǎng)絡(luò)將能更有效地擴展到更大的AI集群。總體而言,多平面架構(gòu)在故障隔離、穩(wěn)健性、負載均衡和大規(guī)模系統(tǒng)可擴展性方面具有顯著優(yōu)勢。

低延遲網(wǎng)絡(luò)設(shè)計優(yōu)化

在模型推理過程中,大規(guī)模EP嚴重依賴all-to-all通信,而這種通信對帶寬和延遲都極為敏感。例如,在50GB/s的網(wǎng)絡(luò)帶寬下,理想情況下數(shù)據(jù)傳輸大約需要120微秒,因此,微秒級的固有網(wǎng)絡(luò)延遲會對系統(tǒng)性能產(chǎn)生嚴重影響,不容忽視。

為降低網(wǎng)絡(luò)通信延遲,DeepSeek選用了InfiniBand GPUDirect Async(IBGDA)。傳統(tǒng)網(wǎng)絡(luò)通信需要創(chuàng)建CPU代理線程:GPU準(zhǔn)備好數(shù)據(jù)后,需通知CPU代理,然后CPU代理填充工作請求(WR)的控制信息,并通過門鈴機制向NIC發(fā)出信號以啟動數(shù)據(jù)傳輸,這一過程會帶來額外的通信開銷。

圖片

而IBGDA允許GPU直接填充WR內(nèi)容并寫入RDMA門鈴MMIO地址,通過在GPU內(nèi)部管理整個控制平面,消除了與GPU-CPU通信相關(guān)的顯著延遲開銷。此外,在發(fā)送大量小數(shù)據(jù)包時,控制平面處理器容易成為瓶頸,而GPU具有多個并行線程,發(fā)送方可以利用這些線程分配工作負載,從而避免此類瓶頸。

包括DeepSeek的DeepEP在內(nèi)的一系列工作都利用了IBGDA,并報告取得了顯著的性能提升,因此,DeepSeek提倡在各種加速器設(shè)備上廣泛支持此類功能。

雖然IB在延遲性能上優(yōu)于基于融合以太網(wǎng)的RDMA(RoCE),是分布式訓(xùn)練和推理等延遲敏感型工作負載的首選,但它也存在成本較高和擴展性方面的問題。RoCE雖有可能成為IB的經(jīng)濟高效替代方案,但其目前在延遲和可擴展性方面的限制,使其尚無法完全滿足大規(guī)模AI系統(tǒng)的需求。

為此,DeepSeek給出了一些改進RoCE的具體建議,包括使用專用低延遲RoCE交換機、優(yōu)化路由策略、改進流量隔離或擁塞控制機制等。

責(zé)任編輯:張燕妮 來源: AIGC開放社區(qū)
相關(guān)推薦

2011-07-04 10:00:02

虛擬化

2019-04-22 08:07:31

MySQL數(shù)據(jù)庫索引

2011-06-29 10:08:24

服務(wù)器虛擬化解決方案

2011-12-20 10:16:49

2020-02-19 13:39:14

操作系統(tǒng)WindowsLinux

2012-12-19 13:00:36

飛魚星WLANVF16

2009-09-03 14:52:12

RHEL5.4發(fā)布KVM

2022-02-25 08:55:19

BitMapRedis面試題

2022-02-10 09:04:18

RediSDS數(shù)據(jù)結(jié)構(gòu)

2010-01-15 09:43:49

Windows 7殺手

2011-05-26 13:43:42

金山快盤

2022-12-23 10:50:20

模型開源

2010-03-23 17:06:01

2015-06-15 14:48:21

蘋果iOS9軟實力

2025-03-03 04:20:00

2023-01-05 09:33:37

視覺模型訓(xùn)練

2015-08-04 10:07:08

程序員面試問題

2011-06-27 22:08:42

臺式機評測

2019-08-29 10:46:42

2016-05-17 20:57:43

點贊
收藏

51CTO技術(shù)棧公眾號