中國初創(chuàng)芯片登Nature:比英偉達(dá)A10快500倍!自研光電混合技術(shù)
來自國內(nèi)的光電混合芯片技術(shù),登上最新頂刊Nature!
這次的成果主要聚焦在了自主研發(fā)的光子計(jì)算處理器——PACE(Photonic Arithmetic Computing Engine)。
簡單來說,PACE是一種基于光電混合的架構(gòu),它通過光執(zhí)行矩陣向量乘法,可以實(shí)現(xiàn)超低延遲和高能效的計(jì)算。
根據(jù)論文中公開的數(shù)據(jù)顯示,PACE在解決組合優(yōu)化問題(如伊辛問題和最大割/最小割問題)時(shí),計(jì)算延遲低至3納秒,比傳統(tǒng)GPU快了兩個(gè)數(shù)量級(jí)。
這一突破的核心在于PACE的高度集成設(shè)計(jì)。
這個(gè)系統(tǒng)集成了超過16000個(gè)光子組件,并通過創(chuàng)新的2.5D混合先進(jìn)封裝技術(shù),將光子集成電路(PIC)與電子集成電路(EIC)無縫集成。
這種設(shè)計(jì)不僅解決了大規(guī)模光電系統(tǒng)集成中的技術(shù)難題,更為商業(yè)化落地奠定了基礎(chǔ)。
而這個(gè)芯片技術(shù),正是來自國內(nèi)初創(chuàng)企業(yè)曦智科技。
據(jù)了解,這是繼八年前曦智科技創(chuàng)始人沈亦晨博士在Nature發(fā)表封面論文后,再一次登上這一頂刊。
那么PACE如此的速度,到底是如何做到的呢?
首次公開:16000個(gè)光子組件的高度集成
隨著人工智能的快速發(fā)展,計(jì)算需求呈爆發(fā)式增長,傳統(tǒng)電子計(jì)算面臨著功耗、速度等方面的瓶頸。
光子計(jì)算憑借光的獨(dú)特性質(zhì),如同時(shí)進(jìn)行乘法和累加過程、數(shù)據(jù)傳輸能耗低、避免電阻損耗和發(fā)熱問題等,成為極具潛力的替代方案,受到全球廣泛關(guān)注。
然而,光子計(jì)算在發(fā)展過程中面臨諸多挑戰(zhàn)。一方面,集成光子學(xué)制造相對(duì)不成熟,缺乏先進(jìn)的封裝解決方案,導(dǎo)致大規(guī)模集成光子系統(tǒng)在性能提升、標(biāo)準(zhǔn)設(shè)計(jì)與驗(yàn)證以及封裝等方面困難重重。
另一方面,光子計(jì)算在光學(xué)存儲(chǔ)、計(jì)算精度(尤其在大規(guī)模復(fù)雜電路中)以及適配模型和算法等方面存在不足,限制了其商業(yè)化進(jìn)程。
為此,曦智科技提出的PACE采用混合架構(gòu)(首次對(duì)外公開),將光子集成電路(PIC)和電子集成電路(EIC)集成在一個(gè)系統(tǒng)級(jí)封裝(SiP)中。
△PACE系統(tǒng)部署
PIC 負(fù)責(zé)執(zhí)行光矩陣向量乘法(oMAC)操作,EIC則處理控制、迭代邏輯、數(shù)據(jù)輸入輸出、存儲(chǔ)以及時(shí)鐘控制等功能。
這種架構(gòu)設(shè)計(jì)充分發(fā)揮了光子計(jì)算在速度和低延遲方面的優(yōu)勢(shì),以及電子計(jì)算在邏輯處理和存儲(chǔ)方面的長處。
在PIC中,團(tuán)隊(duì)設(shè)計(jì)了1×64光學(xué)數(shù)據(jù)模塊和64×64權(quán)重模塊執(zhí)行oMAC操作。
光信號(hào)通過高性能光柵耦合器從外部激光陣列耦合進(jìn)入電路,經(jīng)過向量調(diào)制器陣列和權(quán)重調(diào)制器模塊進(jìn)行調(diào)制,最后在光電探測器陣列進(jìn)行信號(hào)轉(zhuǎn)換和合并。
EIC基于28-nm商業(yè)CMOS技術(shù)設(shè)計(jì),PIC則是基于65-nm硅光子技術(shù)構(gòu)建,單個(gè)芯片集成了超過16000個(gè)光子組件,實(shí)現(xiàn)了高度集成。
這種混合架構(gòu)充分發(fā)揮了光計(jì)算的并行優(yōu)勢(shì):光信號(hào)在波導(dǎo)中傳輸時(shí)天然完成乘加運(yùn)算(oMAC),而電子電路則處理邏輯控制與數(shù)據(jù)存儲(chǔ)。
實(shí)驗(yàn)數(shù)據(jù)顯示,64×64矩陣運(yùn)算延遲僅3納秒,比傳統(tǒng)GPU快500倍。
除此之外,研究團(tuán)隊(duì)創(chuàng)造性地將光學(xué)矩陣運(yùn)算應(yīng)用于組合優(yōu)化問題。
通過設(shè)計(jì)”噪聲驅(qū)動(dòng)遞歸算法”,PACE系統(tǒng)能夠高效求解伊辛模型:
在求解63節(jié)點(diǎn)Max-cut問題時(shí),系統(tǒng)經(jīng)過平均537次迭代(耗時(shí)2.7μs)即可達(dá)到92.7%的收斂率,相比NVIDIA A10 GPU提速295倍。
更引人注目的是”圖像搜索”演示,系統(tǒng)能從隨機(jī)初始狀態(tài)收斂到預(yù)設(shè)的”貓”圖像目標(biāo)。
Nature審稿人對(duì)曦智科技團(tuán)隊(duì)在光子計(jì)算工程化方面作出的努力給予了高度肯定:
在光子計(jì)算領(lǐng)域,通常會(huì)通過小規(guī)模的演示對(duì)大規(guī)模系統(tǒng)性能進(jìn)行樂觀推斷,但本文中的數(shù)據(jù)均來自整個(gè)PACE計(jì)算系統(tǒng)的實(shí)測性能,作者們工程化地實(shí)現(xiàn)了一個(gè)超大規(guī)模光子矩陣計(jì)算系統(tǒng),可謂“壯舉”。
還全球首發(fā)了新一代光電計(jì)算卡
就在前不久的3月25日,曦智科技還正式推出全新一代光電混合計(jì)算卡 ——曦智天樞。
曦智天樞深度融合了光芯片與電芯片的優(yōu)勢(shì),采用先進(jìn)的3D封裝技術(shù),是一款高度可編程的光電混合計(jì)算卡。
與前代產(chǎn)品相比,其在光電集成度、光子矩陣規(guī)模、計(jì)算精度及可編程性等方面均實(shí)現(xiàn)了顯著提升。
它不僅支持科學(xué)計(jì)算(如伊辛算法),還增強(qiáng)了對(duì)ResNet50等商業(yè)算法的適配性,進(jìn)一步拓寬了應(yīng)用場景。
曦智天樞采用非相干架構(gòu)設(shè)計(jì),具備出色的抗干擾能力和高計(jì)算精度。
其核心處理器由光學(xué)處理單元(OPU)和電學(xué)專用集成電路(ASIC)組成,通過3D先進(jìn)封裝技術(shù)實(shí)現(xiàn)協(xié)同工作,主頻速率達(dá)1GHz,輸出精度為8bit。
光芯片面積提升至600平方毫米,器件數(shù)量超過四萬個(gè),集成度大幅提高。
此外,其最大支持128x128矩陣規(guī)模,運(yùn)算能力和靈活性均得到顯著增強(qiáng)。用戶可通過API自由配置計(jì)算矩陣系數(shù),實(shí)現(xiàn)更高效的優(yōu)化與適配。
在軟件方面,產(chǎn)品搭載了曦智光電混合計(jì)算軟件棧,支持主流框架如PyTorch和ONNX,用戶可通過曦智編譯器靈活構(gòu)建高效的應(yīng)用模型。
不僅如此,平臺(tái)還支持用戶自定義算子,進(jìn)一步擴(kuò)展了算法開發(fā)的靈活性。
對(duì)此,沈亦晨博士表示:
曦智天樞首次實(shí)現(xiàn)了光電混合計(jì)算在復(fù)雜商業(yè)化模型中的應(yīng)用,是曦智科技光電混合算力技術(shù)在產(chǎn)品化和商業(yè)化進(jìn)程中的重要突破。
我們堅(jiān)信,光電混合將會(huì)為人工智能、大語言模型、智能制造等領(lǐng)域帶來算力革新。
光+電,會(huì)是未來的答案。