全新GPU高速互聯(lián)設(shè)計(jì),為大模型訓(xùn)練降本增效!北大/階躍/曦智提出新一代高帶寬域架構(gòu)
隨著大模型的參數(shù)規(guī)模不斷擴(kuò)大,分布式訓(xùn)練已成為人工智能發(fā)展的中心技術(shù)路徑。
如此一來,高帶寬域的設(shè)計(jì)對提升大模型訓(xùn)練效率至關(guān)重要。
然而,現(xiàn)有的HBD架構(gòu)在可擴(kuò)展性、成本和容錯(cuò)能力等方面存在根本性限制:
以交換機(jī)為中心的HBD(如NVIDIA NVL-72)成本高昂、不易擴(kuò)展規(guī)模;以GPU為中心的HBD(如 Google TPUv3和Tesla Dojo)存在嚴(yán)重的故障傳播問題;TPUv4等交換機(jī)-GPU混合HBD采用折中方案,但在成本和容錯(cuò)方面仍然不甚理想。
為解決上述問題,北京大學(xué)、階躍星辰和曦智科技的研究團(tuán)隊(duì)提出了InfiniteHBD,這是一種以光交換模組為中心的高帶寬域架構(gòu)。
InfiniteHBD通過將低成本光交換(OCS,Optical Circuit Switching)能力嵌入每個(gè)光電轉(zhuǎn)換模組,實(shí)現(xiàn)了數(shù)據(jù)中心規(guī)模的低成本可擴(kuò)展性和節(jié)點(diǎn)級故障隔離能力。
InfiniteHBD的單位成本僅為NVL-72的31%,GPU浪費(fèi)率接近零(比NVL-72和TPUv4低一個(gè)數(shù)量級以上),且與NVIDIA DGX(每節(jié)點(diǎn)8個(gè)GPU)相比,MFU最高提升3.37 倍。
該項(xiàng)目論文已被SIGCOMM 2025接收。
現(xiàn)有大模型訓(xùn)練的HBD架構(gòu)的三類關(guān)鍵組件
大模型的分布式訓(xùn)練涉及多種并行策略,每種策略對應(yīng)不同的通信需求。
數(shù)據(jù)并行(DP,Data Parallelism)、流水線并行(PP,Pipeline Parallelism)、上下文并行(CP,Context Parallelism)和序列并行(SP,Sequence Parallelism)等策略通信開銷較低,通??赏ㄟ^傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)(如Fat-Tree或Rail-Optimized架構(gòu))提供的200–800 Gbps帶寬完成。
而張量并行和專家并行則通信密集,需依賴高帶寬域(HBD,High-Bandwidth Domain)提供Tbps級帶寬支持,因此HBD成為影響訓(xùn)練效率的關(guān)鍵因素。
現(xiàn)有用于大模型訓(xùn)練的HBD架構(gòu),可根據(jù)其提供連接的關(guān)鍵組件分為三類。
第一類是以交換機(jī)為中心的HBD,如NVIDIA的DGX和GB200 NVL系列。
這類架構(gòu)通過交換機(jī)(如NVLink Switch)互連GPU,能夠?qū)崿F(xiàn)高性能的任意節(jié)點(diǎn)通信(any-to-any communication)。
然而,以交換機(jī)為中心的HBD存在幾個(gè)明顯的局限:
- 大量使用高帶寬交換機(jī)和鏈路,導(dǎo)致互連成本大幅上升,限制了系統(tǒng)的擴(kuò)展能力,并引發(fā)嚴(yán)重的資源碎片化。例如,在NVL-36上運(yùn)行TP-16作業(yè)時(shí),即使無故障發(fā)生,仍有約1/9的GPU無法利用,造成資源浪費(fèi)。
- 存在交換機(jī)級的故障爆炸半徑問題,即單個(gè)交換機(jī)故障可能導(dǎo)致其下所有GPU的帶寬受損,顯著影響整體訓(xùn)練性能。
第二類是以GPU為中心的HBD架構(gòu),如SiP-Ring、Google TPUv3和Tesla Dojo。
這類架構(gòu)通常構(gòu)建Ring或Mesh拓?fù)涞腉PU間直連,顯著降低了互連成本并提升了擴(kuò)展性。
但與此同時(shí),它們也面臨HBD級別的故障爆炸半徑問題:單個(gè)節(jié)點(diǎn)故障會(huì)導(dǎo)致相鄰一組節(jié)點(diǎn)的帶寬降級,并且破壞整個(gè)拓?fù)浣Y(jié)構(gòu)。
例如,在SiP-Ring中,任一GPU故障都會(huì)中斷環(huán)形連接,將原本的環(huán)狀拓?fù)渫嘶癁橐粭l線性拓?fù)洌瑖?yán)重影響通信性能。
第三類是交換機(jī)-GPU混合型HBD架構(gòu),這類設(shè)計(jì)結(jié)合了GPU間直連和交換機(jī)鏈路。
一個(gè)典型代表是TPUv4,它將TPU組織成4×4×4的立方體結(jié)構(gòu),并通過光交換機(jī)(OCS)互連各個(gè)立方體,支持規(guī)模擴(kuò)展至4096個(gè)TPU。
TPUv4在互連成本與擴(kuò)展性之間取得了一定平衡,同時(shí)能夠?qū)⒐?jié)點(diǎn)故障隔離在各自的立方體內(nèi)部。
然而,TPUv4仍存在一些顯著不足:
由于OCS交換機(jī)故障,仍可能出現(xiàn)交換機(jī)級別的故障爆炸半徑問題。
立方體級故障爆炸半徑,即立方體內(nèi)任一節(jié)點(diǎn)故障,可能導(dǎo)致整個(gè)立方體通信性能下降,影響訓(xùn)練效率。
如下圖所示表格中所總結(jié)的,現(xiàn)有的HBD架構(gòu)在可擴(kuò)展性、互連成本、容錯(cuò)性和碎片化方面存在根本性的限制。
為了指導(dǎo)更優(yōu)的設(shè)計(jì),研究人員分析了現(xiàn)有訓(xùn)練工作負(fù)載,并總結(jié)出理想HBD應(yīng)具備的三大關(guān)鍵屬性:
- 隨著集群規(guī)模和模型規(guī)模的擴(kuò)大,最大化MFU(Model FLOPs Utilization)所需的最優(yōu)TP組大小也不斷增長。這凸顯了HBD需要支持大規(guī)模、動(dòng)態(tài)可重配置TP大小的重要性。因此,理想的HBD應(yīng)兼具低成本、高擴(kuò)展性和靈活重構(gòu)能力。
- 由于EP存在負(fù)載不均的問題,MoE模型在采用大規(guī)模純TP訓(xùn)練時(shí),依然能夠相比EP保持較高的效率。這表明,只需針對TP的Ring-AllReduce通信進(jìn)行優(yōu)化,便可覆蓋大部分主流訓(xùn)練場景,同時(shí)大幅簡化拓?fù)湓O(shè)計(jì)的復(fù)雜性。
- 此外,HBD還應(yīng)具備出色的容錯(cuò)能力和高GPU資源利用率,確保在節(jié)點(diǎn)故障情況下訓(xùn)練任務(wù)依然能夠高效運(yùn)行。
基于以上分析,研究團(tuán)隊(duì)提出設(shè)計(jì)一種面向大規(guī)模訓(xùn)練、支持動(dòng)態(tài)重構(gòu)、低成本且高容錯(cuò)的HBD架構(gòu),專門針對TP Ring-AllReduce通信進(jìn)行優(yōu)化,助力下一代大模型訓(xùn)練。
InfiniteHBD包含的三項(xiàng)關(guān)鍵創(chuàng)新
InfiniteHBD提出了一種以光交換模組為核心的HBD架構(gòu),采用了OCS技術(shù)。
通過在光電轉(zhuǎn)換模組中嵌入OCS能力,InfiniteHBD實(shí)現(xiàn)了動(dòng)態(tài)可重構(gòu)的點(diǎn)對多點(diǎn)連接,具備節(jié)點(diǎn)級故障隔離和低資源碎片化的能力,在可擴(kuò)展性和成本上全面優(yōu)于現(xiàn)有方案。
InfiniteHBD的設(shè)計(jì)包含三項(xiàng)關(guān)鍵創(chuàng)新:
- 基于硅光子技術(shù)的OCS光電轉(zhuǎn)換模組(OCSTrx)。
- 可重配置的K-Hop Ring拓?fù)洹?/span>
- HBD-DCN編排算法。
基于硅光子技術(shù)的OCS光電轉(zhuǎn)換模組(OCSTrx)
OCSTrx將基于MZI(Mach-Zehnder Interferometer)交換矩陣的OCS集成進(jìn)商用QSFP-DD 800Gbps光電轉(zhuǎn)換模組。
硅光子技術(shù)大幅簡化了器件結(jié)構(gòu),降低了成本和功耗,顯著提升了InfiniteHBD的性價(jià)比和規(guī)??蓴U(kuò)展性。
每個(gè)OCSTrx連接兩塊GPU,并提供三種通信路徑:
- 回環(huán)路徑實(shí)現(xiàn)現(xiàn)節(jié)點(diǎn)內(nèi)GPU間直連(Path3)。
- 外部鏈路分別連接到不同的外部節(jié)點(diǎn)(Path1&2)。
所有路徑采用時(shí)分復(fù)用設(shè)計(jì),同一時(shí)刻僅激活一條通信路徑,獨(dú)占所有GPU帶寬,且切換延遲低于1ms,實(shí)現(xiàn)了動(dòng)態(tài)故障切換和靈活拓?fù)錁?gòu)建。
可重配置的K-Hop Ring拓?fù)?/span>
通過OCSTrx,節(jié)點(diǎn)可以與所有K跳以內(nèi)的節(jié)點(diǎn)直接互連。
在2-Hop Ring中,節(jié)點(diǎn)N3連接至N1、N2、N4和N5。
節(jié)點(diǎn)內(nèi)拓?fù)渫ㄟ^激活回環(huán)路徑,可在任意位置動(dòng)態(tài)構(gòu)建任意大小的GPU粒度環(huán),靈活支持大規(guī)模、可變尺寸的TP組。
例如,N1和N2通過OCSTrx的不同路徑激活,在N1和N2的GPU1-4之間形成一個(gè)完整環(huán)路。
節(jié)點(diǎn)間容錯(cuò):當(dāng)某節(jié)點(diǎn)故障時(shí),鄰居節(jié)點(diǎn)動(dòng)態(tài)激活備用路徑,快速繞過故障節(jié)點(diǎn),實(shí)現(xiàn)節(jié)點(diǎn)級故障隔離。
例如,若N2故障,N1和N3的外部路徑自動(dòng)連接,GPU通信環(huán)路得以修復(fù)。
HBD-DCN編排算法
TP的節(jié)點(diǎn)放置方案直接影響數(shù)據(jù)中心網(wǎng)絡(luò)(DCN網(wǎng)絡(luò),如Roce網(wǎng)絡(luò))中的并行通信流量(如DP流量)。
不合理的 TP 分布會(huì)導(dǎo)致大量的跨架頂式交換機(jī)(ToR,Top of Rack)通信,增加網(wǎng)絡(luò)擁塞風(fēng)險(xiǎn)。
為此,InfiniteHBD設(shè)計(jì)了兩階段編排機(jī)制:
- 部署階段:在集群布線時(shí)優(yōu)化DCN流量局部性,例如在Fat-Tree架構(gòu)中,布線確保TP組內(nèi)通信盡量在同一ToR內(nèi)完成,減少高層交換機(jī)負(fù)載。
- 運(yùn)行時(shí)階段:根據(jù)作業(yè)規(guī)模、并行策略、實(shí)時(shí)故障模式和DCN流量模式,動(dòng)態(tài)計(jì)算最優(yōu)TP放置方案,在最大化GPU利用率的同時(shí),最小化跨ToR流量。
成本相比NVL-72降低69%,GPU浪費(fèi)率接近零
在大規(guī)模仿真中,該項(xiàng)目采用配備4顆NVIDIA H100 GPU的節(jié)點(diǎn)作為仿真選型。
對比評估的HBD架構(gòu)包括:
- Big-Switch(理想模型,所有節(jié)點(diǎn)通過一臺(tái)大型交換機(jī)互連)
- InfiniteHBD K-Hop Ring(K=2和K=3配置下的InfiniteHBD)
- NVL-36/72/576
- TPUv4
- SiP-Ring
所有HBD架構(gòu)的單GPU帶寬均設(shè)置為6.4Tbps,數(shù)據(jù)中心網(wǎng)絡(luò)(DCN)采用傳統(tǒng)Fat-Tree拓?fù)?,每顆GPU配備400 Gbps帶寬。
故障彈性評估基于兩種故障模式進(jìn)行:
一是采集自真實(shí)10000 GPU規(guī)模生產(chǎn)環(huán)境的348天的故障追蹤數(shù)據(jù),二是基于故障概率模型生成的仿真數(shù)據(jù)。
首先,研究人員評估了不同HBD架構(gòu)的故障彈性表現(xiàn)。
具體來說,將“浪費(fèi)的GPU”定義為因故障擴(kuò)散或資源碎片化而無法參與計(jì)算的健康GPU。
GPU浪費(fèi)率成為衡量HBD故障彈性的重要指標(biāo)。
下圖展示了基于生產(chǎn)環(huán)境故障追蹤數(shù)據(jù),不同TP規(guī)模下各HBD架構(gòu)隨時(shí)間變化的GPU浪費(fèi)率。
下圖則基于故障概率模型。
它描繪了在不同節(jié)點(diǎn)故障率下,各HBD架構(gòu)GPU浪費(fèi)率的變化趨勢。
在兩種故障模式下,InfiniteHBD均實(shí)現(xiàn)了近乎零的GPU浪費(fèi)率,較NVL-36、NVL-72、TPUv4和SiP-Ring低一個(gè)數(shù)量級。
盡管NVL-576因其更大規(guī)模的HBD設(shè)計(jì)表現(xiàn)出一定程度的故障彈性,但其互連成本極高,幾乎無法接受。
接下來,研究者進(jìn)行了模型訓(xùn)練性能的端到端評估,探索了在Llama3.1-405B和GPT-MoE 1.1T訓(xùn)練中最大化MFU的最優(yōu)并行策略,進(jìn)一步驗(yàn)證了前文動(dòng)機(jī)部分提出的關(guān)鍵觀點(diǎn)。
在Llama3.1實(shí)驗(yàn)中,結(jié)果表明,訓(xùn)練過程中需要采用TP-16、TP-32、TP-64甚至更大規(guī)模的TP組。
與傳統(tǒng)的8-GPU HBD架構(gòu)(如NVIDIA DGX系統(tǒng))相比,InfiniteHBD最高可將MFU提升至3.37倍。
在GPT-MoE實(shí)驗(yàn)中,結(jié)果顯示,訓(xùn)練MoE模型時(shí),最優(yōu)的并行策略并不依賴專家并行,通過采用大規(guī)模TP同樣可以實(shí)現(xiàn)高效訓(xùn)練。
整體實(shí)驗(yàn)結(jié)果表明,InfiniteHBD能夠有效滿足大規(guī)模LLM訓(xùn)練對計(jì)算效率與通信性能的雙重需求。
隨后,團(tuán)隊(duì)評估了HBD-DCN編排算法在通信效率優(yōu)化方面的效果。
Baseline方法為一種貪婪算法,即隨機(jī)選擇節(jié)點(diǎn),并采用第一個(gè)滿足作業(yè)需求的排列方案。
如下圖(a)所示,優(yōu)化算法在不同集群規(guī)模下表現(xiàn)穩(wěn)定,跨ToR流量幾乎無明顯波動(dòng),表明其對集群規(guī)模變化不敏感。
下圖(b)展示了作業(yè)規(guī)模比(Job Scale Ratio,作業(yè)占集群總計(jì)算資源的比例)對跨ToR流量的影響(節(jié)點(diǎn)故障率固定為5%)。
Baseline方法始終維持約10%的跨ToR流量,而優(yōu)化算法即便在作業(yè)規(guī)模比達(dá)90%時(shí),仍將跨ToR流量降低5.8倍,顯示出優(yōu)異的高負(fù)載優(yōu)化能力。
下圖(c)進(jìn)一步分析了節(jié)點(diǎn)故障對算法性能的影響(作業(yè)規(guī)模比固定為85%)。
隨著故障率上升,基線方法的跨ToR流量線性增長,而優(yōu)化算法在節(jié)點(diǎn)故障率低于7%時(shí),持續(xù)保持近乎零的跨ToR流量,展現(xiàn)了出色的韌性和容錯(cuò)性。
最后,團(tuán)隊(duì)還分析了不同HBD架構(gòu)的互連成本與能耗。
結(jié)果表明,InfiniteHBD在這兩方面均具有明顯優(yōu)勢,其互連成本僅為NVL-72的31%、TPUv4的63%,同時(shí)在能耗方面也處于最低水平,僅為NVL-72的75%,并且與TPUv4持平。
團(tuán)隊(duì)介紹
一作壽晨宸,北京大學(xué)信息科學(xué)技術(shù)學(xué)院本科生,當(dāng)前主要研究方向?yàn)闄C(jī)器學(xué)習(xí)系統(tǒng)和人工智能基礎(chǔ)設(shè)施。
劉古月,本項(xiàng)目通訊作者之一。
她北京大學(xué)計(jì)算機(jī)學(xué)院助理教授、博士生導(dǎo)師,國家級青年人才。曾任卡耐基梅隆大學(xué)博士后,獲喬治華盛頓大學(xué)博士學(xué)位。長期擔(dān)任 SIGCOMM、NSDI、ASPLOS 專家組成員,并為首位 SIGCOMM Artifact 委員會(huì)亞洲共同主席。
在推動(dòng)高帶寬互連技術(shù)發(fā)展的過程中,作者團(tuán)隊(duì)與多方合作伙伴緊密合作。
階躍星辰:階躍星辰是行業(yè)領(lǐng)先的通用大模型創(chuàng)業(yè)公司,堅(jiān)定探索實(shí)現(xiàn)通用人工智能的道路。公司于2023年4月成立,聚集人工智能領(lǐng)域的頂尖人才,已對外發(fā)布Step系列通用大模型矩陣,覆蓋了從語言、多模態(tài)到推理的全面能力。
曦智科技:曦智科技成立于2017年,是全球領(lǐng)先的光電混合算力提供商。公司秉持“馭光突破算力邊界”的愿景,致力于在算力需求大爆發(fā)的時(shí)代,通過光電混合算力新范式,為客戶提供一系列算力提升解決方案,共建更智能、更可持續(xù)的世界。
據(jù)悉圍繞OCS在高帶寬互連領(lǐng)域的應(yīng)用,上海智能算力科技有限公司已經(jīng)在籌備相關(guān)的集群建設(shè),推動(dòng)該領(lǐng)域的應(yīng)用和實(shí)踐。作者團(tuán)隊(duì)感謝上海智能算力科技有限公司對于科技創(chuàng)新和探索的支持。
arXiv地址:
https://arxiv.org/abs/2502.03885
劉古月個(gè)人主頁:
https://grace-liu.github.io/index.html