自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="whwdc"><p id="whwdc"></p></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

DeepSeek發(fā)布最新論文，5大殺手锏讓大模型訓(xùn)練、推理暴漲

2025-05-16 08:58:09

人工智能新聞

全球著名開源大模型平臺DeepSeek在huggingface 發(fā)布了，超強開源模型V3的論文。

昨天，全球著名開源大模型平臺DeepSeek在Huggingface發(fā)布了，超強開源模型V3的論文。

主要從硬件架構(gòu)和模型設(shè)計的雙視角探討如何在不犧牲性能的前提下實現(xiàn)更高效的大規(guī)模訓(xùn)練和推理以突破硬件瓶頸。

其中，DeepSeek-MoE和多頭潛在注意力、FP8混合精度訓(xùn)練以及多標(biāo)記預(yù)測等成為關(guān)鍵創(chuàng)新技術(shù)。

論文地址：https://huggingface.co/papers/2505.09343。

隨著OpenAI GPT-3、DeepSeek-R1、Claude-3.7 Sonnet等前沿模型的出現(xiàn)，對硬件、算力資源的需求快速上升。在內(nèi)存方面，大模型對內(nèi)存資源的需求每年增長超過1000%，但高速內(nèi)存容量的增長速度卻極為緩慢，每年通常不到50%。

這一內(nèi)存供需失衡的問題嚴重制約了大模型的進一步發(fā)展。在計算效率上，傳統(tǒng)的計算架構(gòu)難以滿足大規(guī)模模型訓(xùn)練和推理的高效需求。

在互連帶寬方面，現(xiàn)有網(wǎng)絡(luò)架構(gòu)在處理大規(guī)模數(shù)據(jù)傳輸時也面臨著帶寬不足和延遲過高等難題，而DeepSeek-V3通過軟件、硬件創(chuàng)新解決了這些難題。

DeepSeek-MoE和多頭潛在注意力

DeepSeek-MoE充分挖掘了混合專家（MoE）架構(gòu)的潛力，其優(yōu)勢主要體現(xiàn)在兩方面。其一，在訓(xùn)練過程中，通過選擇性地激活專家參數(shù)的子集，MoE模型能夠在大幅增加總參數(shù)數(shù)量的同時保持相對適度的計算需求。

例如，DeepSeek-V2擁有2360億參數(shù)，但每個token僅激活210億參數(shù)；而DeepSeek-V3擴展到了6710億參數(shù)，幾乎是V2的三倍，可每個token的激活量僅為370億。相比之下，像Qwen2.5-720億和LLaMA3.1-4050億等密集模型在訓(xùn)練期間則需要激活所有參數(shù)。

數(shù)據(jù)顯示，DeepSeekV3的總計算成本約為每token 250 GFLOPS，而720億參數(shù)的密集模型需要394 GFLOPS，4050億參數(shù)的密集模型更是需要2448 GFLOPS。這表明MoE模型在計算資源消耗量少一個數(shù)量級的情況下，能夠?qū)崿F(xiàn)與密集模型相當(dāng)甚至更優(yōu)的性能。

在個人使用和本地部署場景中，MoE模型同樣展現(xiàn)出獨特優(yōu)勢。由于每個請求僅激活一小部分參數(shù)，內(nèi)存和計算需求大幅降低。

例如，搭載AISoC芯片的個人電腦，在運行DeepSeek-V2（2360億參數(shù)）時，推理過程中僅激活210億參數(shù)，就能達到近每秒20個Token甚至更高的速度，這對于個人使用來說已經(jīng)綽綽有余。而類似能力（如700億參數(shù)）的密集模型在相同硬件條件下，通常只能達到個位數(shù)的TPS。

多頭潛在注意力（MLA）架構(gòu)則通過壓縮鍵值（KV）緩存顯著降低了內(nèi)存消耗。它利用投影矩陣將所有注意力頭的KV表示壓縮成一個更小的潛在向量，并與模型聯(lián)合訓(xùn)練。在推理過程中，只需要緩存該潛在向量，與存儲所有注意力頭的KV緩存相比，大大減少了內(nèi)存占用。

通過采用MLA，DeepSeek-V3顯著減少了KV緩存大小，每個token僅需70KB，遠低于LLaMA-3.1 4050億參數(shù)模型的516KB和Qwen-2.5 720億參數(shù)模型的327KB。

此外，為進一步減小KV緩存的大小，DeepSeek還提出了多種方法。例如共享KV，即多個注意力頭共享一組KV配對，以顯著壓縮KV存儲，代表性方法包括GQA和MQA；

窗口KV，對于長序列，僅在緩存中保留KV配對的滑動窗口；量化壓縮，使用low-bit存儲KV配對，進一步減少內(nèi)存使用。

FP8混合精度訓(xùn)練方法

在訓(xùn)練技術(shù)方面，DeepSeek-V3引入了FP8混合精度訓(xùn)練技術(shù)，這在保證模型質(zhì)量的同時大幅降低了計算成本，使得大規(guī)模訓(xùn)練更加經(jīng)濟可行。雖然GPTQ和AWQ等量化技術(shù)已將位寬減少到8位、4位甚至更低，但這些技術(shù)主要應(yīng)用于推理階段以節(jié)省內(nèi)存，在訓(xùn)練階段的應(yīng)用相對較少。在DeepSeek-V3之前，幾乎沒有利用FP8進行訓(xùn)練的開源大型模型。

DeepSeek通過基礎(chǔ)設(shè)施和算法團隊之間的深度合作，為MoE模型開發(fā)了與FP8兼容的訓(xùn)練框架，在訓(xùn)練管道中使用FP8精度的前向和后向過程計算組件。然而，要充分發(fā)揮FP8在加速訓(xùn)練方面的巨大潛力，還需要解決一些硬件限制。

例如，F(xiàn)P8在Tensor Core中使用約束累加精度，這會影響訓(xùn)練大型模型的穩(wěn)定性；細粒度量化在傳輸部分結(jié)果時會引入大量的反量化開銷，導(dǎo)致頻繁的數(shù)據(jù)移動，降低計算效率并使硬件利用率復(fù)雜化。

針對這些問題，DeepSeek也對未來硬件設(shè)計提出了相應(yīng)建議。在提高累積精度方面，硬件應(yīng)改進并調(diào)整Accumulation Register精度到適當(dāng)?shù)闹担ㄈ鏔P32），或支持可配置的Accumulation Precision；

在對原生細粒度量化的支持方面，硬件應(yīng)支持原生細粒度量化，使Tensor Core能夠接收縮放因子并通過組縮放實現(xiàn)矩陣乘法，避免頻繁的數(shù)據(jù)移動以減少去量化開銷。

在網(wǎng)絡(luò)通信環(huán)節(jié)，DeepSeek-V3架構(gòu)采用低精度壓縮進行網(wǎng)絡(luò)通信。在EP并行期間，使用細粒度的FP8量化來調(diào)度令牌，與BF16相比，通信量減少了50%，顯著縮短了通信時間。DeepSeek建議，為FP8或自定義精度格式定制的壓縮和解壓縮單元提供本機支持，是未來硬件的可行發(fā)展方向，這有助于最大限度地減少帶寬需求并簡化通信管道，大幅提升MoE訓(xùn)練等帶寬密集型任務(wù)的效率。

多標(biāo)記預(yù)測

在傳統(tǒng)的自回歸語言模型中，推理過程是逐個生成標(biāo)記的。每次生成一個標(biāo)記后，模型需要根據(jù)已生成的上下文信息來預(yù)測下一個標(biāo)記。這種順序生成的方式雖然能夠保證生成的連貫性和準(zhǔn)確性，但其推理速度受限于每個標(biāo)記的生成時間。隨著模型規(guī)模的增大和上下文長度的增加，這種順序生成的方式會顯著降低推理效率，尤其是在需要快速生成長文本的場景中。

為了克服這一瓶頸，DeepSeek-V3引入了多標(biāo)記預(yù)測（MTP）框架。該框架允許模型在每個推理步驟中同時生成多個候選標(biāo)記，而不是僅僅生成一個標(biāo)記，這些候選標(biāo)記可以并行計算和驗證，從而顯著減少了生成整個序列所需的時間。

MTP框架通過引入多個輕量級的預(yù)測模塊來實現(xiàn)這一目標(biāo)，每個預(yù)測模塊負責(zé)生成一個特定位置的標(biāo)記。例如，在生成當(dāng)前標(biāo)記的同時，MTP模塊可以預(yù)測下一個標(biāo)記、下下個標(biāo)記等，這些預(yù)測模塊共享模型的上下文信息，但各自獨立生成標(biāo)記。通過這種方式，模型能夠在一次推理步驟中生成多個標(biāo)記，而不是逐個生成。

生成多個候選標(biāo)記后，MTP框架會通過并行驗證來確定哪些候選標(biāo)記是合理的。這一過程利用了模型的上下文信息和已生成的標(biāo)記，通過一系列的驗證步驟來評估每個候選標(biāo)記的合理性，最終模型會選擇最合適的標(biāo)記作為輸出。

實驗數(shù)據(jù)顯示，MTP模塊在預(yù)測下一個標(biāo)記時的接受率高達80%至90%，這意味著大多數(shù)情況下，模型能夠準(zhǔn)確預(yù)測下一個標(biāo)記，從而顯著提高了推理速度。

多平面雙層胖樹網(wǎng)絡(luò)降低算力集群成本

在AI基礎(chǔ)設(shè)施方面，DeepSeek為了降低集群網(wǎng)絡(luò)成本，使用多平面雙層胖樹網(wǎng)絡(luò)，取代了傳統(tǒng)的三層胖樹拓撲結(jié)構(gòu)。

在DeepSeek-V3的訓(xùn)練過程中，部署了一個多平面胖樹（MPFT）橫向擴展網(wǎng)絡(luò)。每個節(jié)點配備8臺GPU和8個IB網(wǎng)卡，每個GPU-網(wǎng)卡對分配到不同的網(wǎng)絡(luò)平面。此外，每個節(jié)點還配備一個400 Gbps以太網(wǎng)RoCE網(wǎng)卡，連接到單獨的存儲網(wǎng)絡(luò)平面，用于訪問3FS分布式文件系統(tǒng)。

在橫向擴展網(wǎng)絡(luò)中，使用了64端口400G IB交換機，該拓撲理論上最多可支持16,384臺GPU，同時保留了雙層網(wǎng)絡(luò)的成本和延遲優(yōu)勢，但受政策和監(jiān)管限制，最終部署的GPU數(shù)量為2048臺。

由于IB ConnectX-7目前存在局限性，DeepSeek部署的MPFT網(wǎng)絡(luò)未能完全實現(xiàn)預(yù)期架構(gòu)。理想情況下，每個網(wǎng)卡（NIC）應(yīng)具有多個物理端口，每個端口連接到單獨的網(wǎng)絡(luò)平面，但通過端口綁定，共同作為單個邏輯接口向用戶公開。

從用戶角度看，單個隊列對（QP）可以在所有可用端口之間無縫地發(fā)送和接收消息，類似于數(shù)據(jù)包噴射。因此，來自同一QP的數(shù)據(jù)包可能會穿越不同的網(wǎng)絡(luò)路徑，并以無序方式到達接收方，這就需要網(wǎng)卡內(nèi)原生支持無序布局，以保證消息一致性并保留正確的排序語義。

例如，InfiniBand ConnectX-8原生支持四平面。若未來的網(wǎng)卡能夠完全支持高級多平面功能，雙層胖樹網(wǎng)絡(luò)將能更有效地擴展到更大的AI集群。總體而言，多平面架構(gòu)在故障隔離、穩(wěn)健性、負載均衡和大規(guī)模系統(tǒng)可擴展性方面具有顯著優(yōu)勢。

低延遲網(wǎng)絡(luò)設(shè)計優(yōu)化

在模型推理過程中，大規(guī)模EP嚴重依賴all-to-all通信，而這種通信對帶寬和延遲都極為敏感。例如，在50GB/s的網(wǎng)絡(luò)帶寬下，理想情況下數(shù)據(jù)傳輸大約需要120微秒，因此，微秒級的固有網(wǎng)絡(luò)延遲會對系統(tǒng)性能產(chǎn)生嚴重影響，不容忽視。

為降低網(wǎng)絡(luò)通信延遲，DeepSeek選用了InfiniBand GPUDirect Async（IBGDA）。傳統(tǒng)網(wǎng)絡(luò)通信需要創(chuàng)建CPU代理線程：GPU準(zhǔn)備好數(shù)據(jù)后，需通知CPU代理，然后CPU代理填充工作請求（WR）的控制信息，并通過門鈴機制向NIC發(fā)出信號以啟動數(shù)據(jù)傳輸，這一過程會帶來額外的通信開銷。

而IBGDA允許GPU直接填充WR內(nèi)容并寫入RDMA門鈴MMIO地址，通過在GPU內(nèi)部管理整個控制平面，消除了與GPU-CPU通信相關(guān)的顯著延遲開銷。此外，在發(fā)送大量小數(shù)據(jù)包時，控制平面處理器容易成為瓶頸，而GPU具有多個并行線程，發(fā)送方可以利用這些線程分配工作負載，從而避免此類瓶頸。

包括DeepSeek的DeepEP在內(nèi)的一系列工作都利用了IBGDA，并報告取得了顯著的性能提升，因此，DeepSeek提倡在各種加速器設(shè)備上廣泛支持此類功能。

雖然IB在延遲性能上優(yōu)于基于融合以太網(wǎng)的RDMA（RoCE），是分布式訓(xùn)練和推理等延遲敏感型工作負載的首選，但它也存在成本較高和擴展性方面的問題。RoCE雖有可能成為IB的經(jīng)濟高效替代方案，但其目前在延遲和可擴展性方面的限制，使其尚無法完全滿足大規(guī)模AI系統(tǒng)的需求。

為此，DeepSeek給出了一些改進RoCE的具體建議，包括使用專用低延遲RoCE交換機、優(yōu)化路由策略、改進流量隔離或擁塞控制機制等。

責(zé)任編輯：張燕妮來源： AIGC開放社區(qū)

開源模型 AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<ruby id="a0xlz"></ruby>