自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek的V3,爆火了 原創(chuàng)

發(fā)布于 2024-12-30 20:32
瀏覽
0收藏

編輯 | 言征

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

上周四,12月26日那個(gè)晚上非常不平凡,一件大事注定要被AI界寫進(jìn)里程碑。

一夜之間,全球開源界最強(qiáng)模型不再是Llama了,而是中國開源界的新星DeepSeek最新研發(fā)的前言模型V3,甚至可以比肩世界頂尖的閉源模型。

根據(jù)DeeSeek披露的基準(zhǔn)測試分?jǐn)?shù),簡單來講,八個(gè)字:開源最強(qiáng),閉源比肩。

DeepSeek-V3在眾多其他閉源模型中脫穎而出,表現(xiàn)優(yōu)于Meta的旗艦產(chǎn)品——擁有4050億個(gè)參數(shù)的Llama 3.1模型。與DeepSeek的前代產(chǎn)品V2相比,V3的速度提高了三倍。

更為矚目的是,技術(shù)論文中寫道:“綜合評估表明,DeepSeek-V3已成為當(dāng)前可用的最強(qiáng)開源模型,其性能可與GPT-4o和Claude-3.5-Sonnet等領(lǐng)先的閉源模型相媲美?!?/p>

但更為讓人吃驚的點(diǎn)就在于——2個(gè)月、2000張H800卡,就搞出了GPT-4o級別的模型。

DeepSeek的V3,爆火了-AI.x社區(qū)圖片

V3模型的三個(gè)創(chuàng)新

DeepSeek這實(shí)力真的有點(diǎn)恐怖!

那么這家由知名私募巨頭幻方量化旗下的人工智能公司,究竟是如何做到的?

本身的模型架構(gòu)訓(xùn)練也不是什么秘密:V3模型還是走的MoE路線,總計(jì)擁有6710億個(gè)參數(shù),每個(gè)token可激活370億個(gè)參數(shù)。這么大模型需要多少數(shù)據(jù)量來訓(xùn)練呢?答案是:14.8萬億個(gè)token!

注意:HuggingFace上的DeepSeek-V3模型總大小為685B,包括671B的主模型權(quán)重和14B的多標(biāo)記預(yù)測(MTP)模塊權(quán)重。

DeepSeek已在GitHub上發(fā)布了該模型,并發(fā)表了一篇詳細(xì)的技術(shù)論文,概述了其能力。

論文鏈接:??https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf??

論文中披露的創(chuàng)新點(diǎn)很多,這里分享三個(gè)印象最為深刻的點(diǎn):MLA技術(shù)+小專家MoE架構(gòu);負(fù)載均衡策略、多標(biāo)記預(yù)測訓(xùn)練目標(biāo)的前后訓(xùn)練的樣板打法;P/D分離+雙流推理低設(shè)備空閑策略。

一,模型架構(gòu)方面,V3采用MLA技術(shù)(多頭潛在注意力)+MoE架構(gòu)。大模型架構(gòu)需要遵循系統(tǒng)算法系統(tǒng)設(shè)計(jì)原則,DeepSeek采用的MLA技術(shù),可以理解為類LoRA對kv進(jìn)行降維壓縮,升維操作轉(zhuǎn)移到Q和O上,避免反復(fù)解壓縮,這樣可以降低kv cache/token開銷。MLA其實(shí)在V2就已經(jīng)采用了,只是沒有得到大家的廣泛關(guān)注,因?yàn)閺?fù)雜度相對偏高。

而MoE這塊,這塊大家都比較熟知,主要是為了為了降低flops/param開銷,不過V3所采用的策略也可圈可點(diǎn)。不同于Mixtral中大專家的設(shè)計(jì)(將稠密模型中的MLP結(jié)構(gòu)復(fù)制8份),DeepSeek-V3采用大量“小專家”的設(shè)計(jì),能夠顯著提升模型的稀疏程度(總參數(shù)量除以激活參數(shù)量)。

相比V2的236B總參數(shù)(21B激活參數(shù)),V3更加激進(jìn)地引入256個(gè)專家,總參數(shù)量達(dá)到驚人的671B,而激活參數(shù)量僅僅增加到37B。

根據(jù)技術(shù)報(bào)告里的數(shù)據(jù),得益于更加稀疏的MoE設(shè)計(jì),以及系統(tǒng)上的一系列優(yōu)化,訓(xùn)練V3每trillion數(shù)據(jù)的GPU小時(shí)數(shù)僅僅為180K(而V2對應(yīng)的GPU小時(shí)數(shù)為172.8K),可謂是將V2技術(shù)報(bào)告標(biāo)題中的Economical(性價(jià)比)貫徹到底。

此外,MoE架構(gòu)方面,V3還開創(chuàng)了一種新的無輔助損失的負(fù)載平衡策略和多標(biāo)記預(yù)測訓(xùn)練目標(biāo)。V3中使用先前發(fā)布的auxiliary-loss-free策略來緩解專家之間的負(fù)載不均衡。一位業(yè)界人士稱贊道:學(xué)術(shù)探索的技術(shù)能夠如此迅速地上線到自家大模型,可見DeepSeek對于創(chuàng)新的重視程度。

另外,V3引入了multi-token prediction(MTP),不僅可以在訓(xùn)練時(shí)提供更多監(jiān)督信息,還可以在推理時(shí)結(jié)合投機(jī)采樣速模型解碼。從論文匯報(bào)的效果來看,MTP會是一個(gè)不錯(cuò)的訓(xùn)練技巧。

二,訓(xùn)練效率優(yōu)化方面,預(yù)訓(xùn)練方面的FP8混合精度訓(xùn)練模式,后訓(xùn)練 R1模型的長鏈思考能力蒸餾到了標(biāo)準(zhǔn)LL中。

據(jù)業(yè)內(nèi)人士介紹,實(shí)際大模型訓(xùn)練中主流選擇是BF16。因?yàn)镕P8伴隨著數(shù)值溢出的風(fēng)險(xiǎn),而MoE的訓(xùn)練又非常不穩(wěn)定。現(xiàn)有FP8方案的訓(xùn)練困難主要來自兩個(gè)方面,一個(gè)是粗粒度的per-tensorE4M3量化會因?yàn)閭€(gè)別異常值增加量化誤差,另一個(gè)則是反向過程中使用的E5M2格式會帶來較大的舍入誤差。

為了解決以上問題,DeepSeek-V3在訓(xùn)練過程中統(tǒng)一使用E4M3格式,并通過細(xì)粒度的per-tile(1x128)和per-group(128x128)量化來降低誤差。這種設(shè)計(jì)更加接近micro-scaling格式,然而,當(dāng)前硬件架構(gòu)并不支持這種格式的運(yùn)算,這給FP8矩陣乘法的實(shí)現(xiàn)帶來了挑戰(zhàn)(需要通過partial sum的方式來實(shí)現(xiàn))。

FP8的好處,有一點(diǎn)體現(xiàn)在節(jié)省顯存上(尤其是激活值)。顯存的優(yōu)化有助于設(shè)計(jì)更好的并行策略,例如可以減少甚至消除張量并行的使用。此外,V3使用BF16來保存優(yōu)化器,狀態(tài),以及對部分操作進(jìn)行選擇性重計(jì)算(例如RMSNorm, MLA Up-Proj, SwiGLU)。

可以說V3給業(yè)界做了一個(gè)很好的示范:FP8模式是可行和有效的!

通過算法、框架和硬件的共同設(shè)計(jì),V3克服了跨節(jié)點(diǎn)MoE訓(xùn)練中的通信瓶頸,幾乎實(shí)現(xiàn)了完全的計(jì)算通信重疊。這顯著提高了我們的訓(xùn)練效率并降低了訓(xùn)練成本,使我們能夠在不增加額外開銷的情況下進(jìn)一步擴(kuò)大模型規(guī)模。

以僅2.664M H800 GPU小時(shí)的經(jīng)濟(jì)成本,就完成了在14.8T標(biāo)記上的預(yù)訓(xùn)練,并且效果也異常得好,造就了目前最強(qiáng)大的開源基礎(chǔ)模型。預(yù)訓(xùn)練后的后續(xù)訓(xùn)練階段僅需要0.1M GPU小時(shí)。 

此外,其訓(xùn)練過程非常穩(wěn)定。在整個(gè)訓(xùn)練過程中并沒有遇到任何不可恢復(fù)的損失峰值或執(zhí)行任何回滾。

后訓(xùn)練上,V3也有了新的樣板打法:從類o1中的長鏈思考能力蒸餾道標(biāo)準(zhǔn)LLM中。通過V3的訓(xùn)練流程,可以優(yōu)雅地將R1的驗(yàn)證和反思模式整合到DeepSeek-V3中,并顯著提高了其推理性能。同時(shí),V3的輸出風(fēng)格和長度也可以后臺控制。

三,推理優(yōu)化:推理層面,除了業(yè)內(nèi)熟知的P/D分離策略最大化系統(tǒng)吞吐,降低解碼時(shí)延之外,還填充all2all通信階段的設(shè)備空閑時(shí)間,V3采用NanoFlow中的雙流推理策略,將不同micro-batch中的計(jì)算和通信任務(wù)并發(fā)執(zhí)行,從而提高設(shè)備資源利用率。

V3:是最便宜的開源模型之一

DeepSeek將V3的API定價(jià)將維持與DeepSeek V2相同,直至2025年2月8日。之后隨著性能更強(qiáng)的V3版本推出,輸入時(shí)費(fèi)用為每百萬個(gè)tokes0.27美元,輸出時(shí)費(fèi)用為每百萬個(gè)tokens1.10美元。

這也是DeepSeek算法和工程上的創(chuàng)新的結(jié)果,V3的生成吐字速度從20TPS大幅提高至60TPS,相比V2.5模型實(shí)現(xiàn)了3倍的提升,在處理多模態(tài)數(shù)據(jù)和長文本時(shí)表現(xiàn)突出。

這意味著它也成為了市面上最便宜的模型之一。

同時(shí),DeepSeek在開源方面也做得很足,為了確保最佳性能和靈活性,還與開源社區(qū)和硬件供應(yīng)商(英偉達(dá)、AMD、華為等)合作,提供了多種本地運(yùn)行模型的方式。

V3對比o1:還是有差距

盡管這可能不是一場公平的較量,但該模型與OpenAI的o1相比表現(xiàn)如何呢?

o1在GPQA Diamond(博士級科學(xué)問題)基準(zhǔn)測試中獲得了76%的分?jǐn)?shù),而DeepSeek則以59.1%的分?jǐn)?shù)落后于o1。o1的完整版本在多個(gè)基準(zhǔn)測試中擊敗了DeepSeek。然而,DeepSeek-V3在多個(gè)基準(zhǔn)測試中確實(shí)優(yōu)于備受追捧的Claude 3.5 Sonnet。

后來,大家還發(fā)現(xiàn)V3在對話聊天中存在“誤報(bào)我是GPT4o”的內(nèi)容,純屬業(yè)內(nèi)經(jīng)常會出現(xiàn)的合成數(shù)據(jù)和蒸餾訓(xùn)練的情況。

但盡管如此,足以說明DeepSeek在過去短短幾個(gè)月里在開源AI生態(tài)系統(tǒng)中就取得了重大進(jìn)展。而DeepSeek并非個(gè)例。另一方面,阿里巴巴的Qwen 2.5在性能上與許多領(lǐng)先模型不相上下。Qwen2.5-Coder系列在代碼生成方面表現(xiàn)出色,在EvalPlus、LiveCodeBench和BigCodeBench等基準(zhǔn)測試中,其功能與GPT-4o不相上下。

參考鏈接:

??https://www.zhihu.com/question/7837132971/answer/65665281923??

??https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf??

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:言征

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦