自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="9bda2"></s>

<s id="9bda2"><li id="9bda2"></li></s>

<legend id="9bda2"><track id="9bda2"><dfn id="9bda2"></dfn></track></legend>

<cite id="9bda2"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

DeepSeek的V3，爆火了原創(chuàng)

51CTO技術(shù)棧

發(fā)布于 2024-12-30 20:32

瀏覽

0收藏

編輯 | 言征

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

上周四，12月26日那個(gè)晚上非常不平凡，一件大事注定要被AI界寫進(jìn)里程碑。

一夜之間，全球開源界最強(qiáng)模型不再是Llama了，而是中國開源界的新星DeepSeek最新研發(fā)的前言模型V3，甚至可以比肩世界頂尖的閉源模型。

根據(jù)DeeSeek披露的基準(zhǔn)測試分?jǐn)?shù)，簡單來講，八個(gè)字：開源最強(qiáng)，閉源比肩。

DeepSeek-V3在眾多其他閉源模型中脫穎而出，表現(xiàn)優(yōu)于Meta的旗艦產(chǎn)品——擁有4050億個(gè)參數(shù)的Llama 3.1模型。與DeepSeek的前代產(chǎn)品V2相比，V3的速度提高了三倍。

更為矚目的是，技術(shù)論文中寫道：“綜合評估表明，DeepSeek-V3已成為當(dāng)前可用的最強(qiáng)開源模型，其性能可與GPT-4o和Claude-3.5-Sonnet等領(lǐng)先的閉源模型相媲美?！?/p>

但更為讓人吃驚的點(diǎn)就在于——2個(gè)月、2000張H800卡，就搞出了GPT-4o級別的模型。

DeepSeek的V3，爆火了-AI.x社區(qū) 圖片

V3模型的三個(gè)創(chuàng)新

DeepSeek這實(shí)力真的有點(diǎn)恐怖！

那么這家由知名私募巨頭幻方量化旗下的人工智能公司，究竟是如何做到的？

本身的模型架構(gòu)訓(xùn)練也不是什么秘密：V3模型還是走的MoE路線，總計(jì)擁有6710億個(gè)參數(shù)，每個(gè)token可激活370億個(gè)參數(shù)。這么大模型需要多少數(shù)據(jù)量來訓(xùn)練呢？答案是：14.8萬億個(gè)token！

注意：HuggingFace上的DeepSeek-V3模型總大小為685B，包括671B的主模型權(quán)重和14B的多標(biāo)記預(yù)測（MTP）模塊權(quán)重。

DeepSeek已在GitHub上發(fā)布了該模型，并發(fā)表了一篇詳細(xì)的技術(shù)論文，概述了其能力。

論文鏈接：??https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf??

論文中披露的創(chuàng)新點(diǎn)很多，這里分享三個(gè)印象最為深刻的點(diǎn)：MLA技術(shù)+小專家MoE架構(gòu)；負(fù)載均衡策略、多標(biāo)記預(yù)測訓(xùn)練目標(biāo)的前后訓(xùn)練的樣板打法；P/D分離+雙流推理低設(shè)備空閑策略。

一，模型架構(gòu)方面，V3采用MLA技術(shù)（多頭潛在注意力）+MoE架構(gòu)。大模型架構(gòu)需要遵循系統(tǒng)算法系統(tǒng)設(shè)計(jì)原則，DeepSeek采用的MLA技術(shù)，可以理解為類LoRA對kv進(jìn)行降維壓縮，升維操作轉(zhuǎn)移到Q和O上，避免反復(fù)解壓縮，這樣可以降低kv cache/token開銷。MLA其實(shí)在V2就已經(jīng)采用了，只是沒有得到大家的廣泛關(guān)注，因?yàn)閺?fù)雜度相對偏高。

而MoE這塊，這塊大家都比較熟知，主要是為了為了降低flops/param開銷，不過V3所采用的策略也可圈可點(diǎn)。不同于Mixtral中大專家的設(shè)計(jì)（將稠密模型中的MLP結(jié)構(gòu)復(fù)制8份），DeepSeek-V3采用大量“小專家”的設(shè)計(jì)，能夠顯著提升模型的稀疏程度（總參數(shù)量除以激活參數(shù)量）。

相比V2的236B總參數(shù)（21B激活參數(shù)），V3更加激進(jìn)地引入256個(gè)專家，總參數(shù)量達(dá)到驚人的671B，而激活參數(shù)量僅僅增加到37B。

根據(jù)技術(shù)報(bào)告里的數(shù)據(jù)，得益于更加稀疏的MoE設(shè)計(jì)，以及系統(tǒng)上的一系列優(yōu)化，訓(xùn)練V3每trillion數(shù)據(jù)的GPU小時(shí)數(shù)僅僅為180K（而V2對應(yīng)的GPU小時(shí)數(shù)為172.8K），可謂是將V2技術(shù)報(bào)告標(biāo)題中的Economical（性價(jià)比）貫徹到底。

此外，MoE架構(gòu)方面，V3還開創(chuàng)了一種新的無輔助損失的負(fù)載平衡策略和多標(biāo)記預(yù)測訓(xùn)練目標(biāo)。V3中使用先前發(fā)布的auxiliary-loss-free策略來緩解專家之間的負(fù)載不均衡。一位業(yè)界人士稱贊道：學(xué)術(shù)探索的技術(shù)能夠如此迅速地上線到自家大模型，可見DeepSeek對于創(chuàng)新的重視程度。

另外，V3引入了multi-token prediction（MTP），不僅可以在訓(xùn)練時(shí)提供更多監(jiān)督信息，還可以在推理時(shí)結(jié)合投機(jī)采樣速模型解碼。從論文匯報(bào)的效果來看，MTP會是一個(gè)不錯(cuò)的訓(xùn)練技巧。

二，訓(xùn)練效率優(yōu)化方面，預(yù)訓(xùn)練方面的FP8混合精度訓(xùn)練模式，后訓(xùn)練 R1模型的長鏈思考能力蒸餾到了標(biāo)準(zhǔn)LL中。

據(jù)業(yè)內(nèi)人士介紹，實(shí)際大模型訓(xùn)練中主流選擇是BF16。因?yàn)镕P8伴隨著數(shù)值溢出的風(fēng)險(xiǎn)，而MoE的訓(xùn)練又非常不穩(wěn)定。現(xiàn)有FP8方案的訓(xùn)練困難主要來自兩個(gè)方面，一個(gè)是粗粒度的per-tensorE4M3量化會因?yàn)閭€(gè)別異常值增加量化誤差，另一個(gè)則是反向過程中使用的E5M2格式會帶來較大的舍入誤差。

為了解決以上問題，DeepSeek-V3在訓(xùn)練過程中統(tǒng)一使用E4M3格式，并通過細(xì)粒度的per-tile（1x128）和per-group（128x128）量化來降低誤差。這種設(shè)計(jì)更加接近micro-scaling格式，然而，當(dāng)前硬件架構(gòu)并不支持這種格式的運(yùn)算，這給FP8矩陣乘法的實(shí)現(xiàn)帶來了挑戰(zhàn)（需要通過partial sum的方式來實(shí)現(xiàn)）。

FP8的好處，有一點(diǎn)體現(xiàn)在節(jié)省顯存上（尤其是激活值）。顯存的優(yōu)化有助于設(shè)計(jì)更好的并行策略，例如可以減少甚至消除張量并行的使用。此外，V3使用BF16來保存優(yōu)化器，狀態(tài)，以及對部分操作進(jìn)行選擇性重計(jì)算（例如RMSNorm, MLA Up-Proj, SwiGLU）。

可以說V3給業(yè)界做了一個(gè)很好的示范：FP8模式是可行和有效的！

通過算法、框架和硬件的共同設(shè)計(jì)，V3克服了跨節(jié)點(diǎn)MoE訓(xùn)練中的通信瓶頸，幾乎實(shí)現(xiàn)了完全的計(jì)算通信重疊。這顯著提高了我們的訓(xùn)練效率并降低了訓(xùn)練成本，使我們能夠在不增加額外開銷的情況下進(jìn)一步擴(kuò)大模型規(guī)模。

以僅2.664M H800 GPU小時(shí)的經(jīng)濟(jì)成本，就完成了在14.8T標(biāo)記上的預(yù)訓(xùn)練，并且效果也異常得好，造就了目前最強(qiáng)大的開源基礎(chǔ)模型。預(yù)訓(xùn)練后的后續(xù)訓(xùn)練階段僅需要0.1M GPU小時(shí)。

此外，其訓(xùn)練過程非常穩(wěn)定。在整個(gè)訓(xùn)練過程中并沒有遇到任何不可恢復(fù)的損失峰值或執(zhí)行任何回滾。

后訓(xùn)練上，V3也有了新的樣板打法：從類o1中的長鏈思考能力蒸餾道標(biāo)準(zhǔn)LLM中。通過V3的訓(xùn)練流程，可以優(yōu)雅地將R1的驗(yàn)證和反思模式整合到DeepSeek-V3中，并顯著提高了其推理性能。同時(shí)，V3的輸出風(fēng)格和長度也可以后臺控制。

三，推理優(yōu)化：推理層面，除了業(yè)內(nèi)熟知的P/D分離策略最大化系統(tǒng)吞吐，降低解碼時(shí)延之外，還填充all2all通信階段的設(shè)備空閑時(shí)間，V3采用NanoFlow中的雙流推理策略，將不同micro-batch中的計(jì)算和通信任務(wù)并發(fā)執(zhí)行，從而提高設(shè)備資源利用率。

V3：是最便宜的開源模型之一

DeepSeek將V3的API定價(jià)將維持與DeepSeek V2相同，直至2025年2月8日。之后隨著性能更強(qiáng)的V3版本推出，輸入時(shí)費(fèi)用為每百萬個(gè)tokes0.27美元，輸出時(shí)費(fèi)用為每百萬個(gè)tokens1.10美元。

這也是DeepSeek算法和工程上的創(chuàng)新的結(jié)果，V3的生成吐字速度從20TPS大幅提高至60TPS，相比V2.5模型實(shí)現(xiàn)了3倍的提升，在處理多模態(tài)數(shù)據(jù)和長文本時(shí)表現(xiàn)突出。

這意味著它也成為了市面上最便宜的模型之一。

同時(shí)，DeepSeek在開源方面也做得很足，為了確保最佳性能和靈活性，還與開源社區(qū)和硬件供應(yīng)商（英偉達(dá)、AMD、華為等）合作，提供了多種本地運(yùn)行模型的方式。

V3對比o1：還是有差距

盡管這可能不是一場公平的較量，但該模型與OpenAI的o1相比表現(xiàn)如何呢？

o1在GPQA Diamond（博士級科學(xué)問題）基準(zhǔn)測試中獲得了76%的分?jǐn)?shù)，而DeepSeek則以59.1%的分?jǐn)?shù)落后于o1。o1的完整版本在多個(gè)基準(zhǔn)測試中擊敗了DeepSeek。然而，DeepSeek-V3在多個(gè)基準(zhǔn)測試中確實(shí)優(yōu)于備受追捧的Claude 3.5 Sonnet。

后來，大家還發(fā)現(xiàn)V3在對話聊天中存在“誤報(bào)我是GPT4o”的內(nèi)容，純屬業(yè)內(nèi)經(jīng)常會出現(xiàn)的合成數(shù)據(jù)和蒸餾訓(xùn)練的情況。

但盡管如此，足以說明DeepSeek在過去短短幾個(gè)月里在開源AI生態(tài)系統(tǒng)中就取得了重大進(jìn)展。而DeepSeek并非個(gè)例。另一方面，阿里巴巴的Qwen 2.5在性能上與許多領(lǐng)先模型不相上下。Qwen2.5-Coder系列在代碼生成方面表現(xiàn)出色，在EvalPlus、LiveCodeBench和BigCodeBench等基準(zhǔn)測試中，其功能與GPT-4o不相上下。

參考鏈接：

??https://www.zhihu.com/question/7837132971/answer/65665281923??

??https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf??

本文轉(zhuǎn)載自??51CTO技術(shù)棧??，作者：言征

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

一個(gè)眨眼間的歌曲：Suno v3 徹底革新了人工智能音樂創(chuàng)作

AIGC最前線 ? 3478瀏覽 ? 0回復(fù)
Transformers.js v3震撼發(fā)布：WebGPU加速、120種架構(gòu)支持，開發(fā)者必備神器！

Syrupup ? 3382瀏覽 ? 0回復(fù)
Transformers.js v3 發(fā)布：為瀏覽器中的機(jī)器學(xué)習(xí)帶來強(qiáng)大的功能與靈活性

Halo咯咯 ? 2927瀏覽 ? 0回復(fù)
DeepSeek簡明解析，10分鐘速通DeepSeekV1~V3核心技術(shù)點(diǎn)！

海因斯DK ? 7590瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek-V3 技術(shù)報(bào)告

xuxiangda ? 4548瀏覽 ? 0回復(fù)
DeepSeek 爆了，普通人如何3小時(shí)完全從0訓(xùn)練自己的大模型

玄姐聊AGI ? 6416瀏覽 ? 0回復(fù)
8卡32B模型超越o1預(yù)覽版、DeepSeek V3，普林斯頓、北大提出層次化RL推理新范式

輕薄滴假象 ? 1883瀏覽 ? 0回復(fù)
沖，DeepSeek-R1/V3推理系統(tǒng)架構(gòu)設(shè)計(jì)被開源了！

PaperAgent ? 1876瀏覽 ? 0回復(fù)
綜述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 開源關(guān)鍵技術(shù)

amei2000go ? 4484瀏覽 ? 0回復(fù)
「DeepSeek-V3 技術(shù)解析」：多頭潛在注意力機(jī)制（MLA）

Baihai_IDP ? 2112瀏覽 ? 0回復(fù)
「DeepSeek-V3 技術(shù)解析」：DeepSeekMoE

Baihai_IDP ? 1334瀏覽 ? 0回復(fù)
DeepSeek開源新版V3，再次震驚國外

Aceryt ? 1310瀏覽 ? 0回復(fù)
從FP8到安全張量，DeepSeek?V3?0324 重塑大模型生態(tài)的秘密武器

xuxiangda ? 1616瀏覽 ? 0回復(fù)
DeepSeek V3 0324：就在剛剛，DeepSeek悄悄更新，700行代碼一氣呵成！

Halo咯咯 ? 2112瀏覽 ? 0回復(fù)
DeepSeek-V3：小版本升級，大能力進(jìn)階

穿越時(shí)空111 ? 1150瀏覽 ? 0回復(fù)
「DeepSeek-V3 技術(shù)解析」：無輔助損失函數(shù)的負(fù)載均衡

Baihai_IDP ? 1126瀏覽 ? 0回復(fù)
推理、編碼打平DeepSeek V3但參數(shù)減一半，一張H100就能跑，還有巨獸2萬億參數(shù)模型！

51CTO技術(shù)棧 ? 1291瀏覽 ? 0回復(fù)
一手實(shí)測DeepSeek-V3-0324，AI編程大躍進(jìn)

沃垠AI ? 1589瀏覽 ? 0回復(fù)
「DeepSeek-V3 技術(shù)解析」：DeepSeek-V3-Base 預(yù)訓(xùn)練階段解析

Baihai_IDP ? 914瀏覽 ? 0回復(fù)

51CTO技術(shù)棧

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

支付巨頭被打臉！曾放話AI能頂700名人類客服，年省4千萬刀；一年后又把員工招回來了！ 0回復(fù)

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實(shí)戰(zhàn)教程 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

2025年最值得關(guān)注的十大多模態(tài)大語言模型！ 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：谷歌會議音頻流出！CEO劈柴：2025年事關(guān)重大，將迎來顛覆時(shí)刻!全力聚焦Gemini在C端增長!

下一篇：扎推曝光！大廠2025計(jì)劃流出：字節(jié)辟謠瘋狂買卡，奧特曼要搞AGI、智能體和ChatGPT成人模式；谷歌硬剛OpenAI

社區(qū)精華內(nèi)容

目錄

^{<thead id="behbd"></thead>}

<cite id="behbd"><rp id="behbd"></rp></cite>

<blockquote id="behbd"><p id="behbd"><li id="behbd"></li></p></blockquote>