2023開(kāi)放原子開(kāi)發(fā)者大會(huì):螞蟻AI開(kāi)源引關(guān)注,5大開(kāi)源項(xiàng)目獲認(rèn)可
12月16日,在開(kāi)放原子開(kāi)源基金會(huì)主辦的“2023開(kāi)放原子開(kāi)發(fā)者大會(huì)”上,螞蟻集團(tuán)主導(dǎo)開(kāi)源的圖數(shù)據(jù)庫(kù)TuGraph、時(shí)序數(shù)據(jù)庫(kù)CeresDB、隱私計(jì)算框架隱語(yǔ)SecretFlow、前端框架OpenSumi、數(shù)據(jù)域大模型開(kāi)源框架DB-GPT入選“2023快速成長(zhǎng)開(kāi)源項(xiàng)目”。
(圖:TuGraph、CeresDB、隱語(yǔ)SecretFlow、OpenSumi、DB-GPT入選“2023快速成長(zhǎng)開(kāi)源項(xiàng)目”)
據(jù)了解,螞蟻以開(kāi)源關(guān)鍵基礎(chǔ)軟件為核心戰(zhàn)略。本次入選的五個(gè)項(xiàng)目,表明了螞蟻在關(guān)鍵基礎(chǔ)軟件領(lǐng)域開(kāi)源的投入獲認(rèn)可,大模型跨界開(kāi)源項(xiàng)目被關(guān)注,也為行業(yè)探索大模型應(yīng)用帶來(lái)了啟發(fā)。
以CeresDB為例,這是一種存儲(chǔ)和管理時(shí)間序列數(shù)據(jù)的分布式數(shù)據(jù)庫(kù),為時(shí)間序列數(shù)據(jù)提供高性能讀寫、高壓縮比低成本存儲(chǔ)、可視化查詢等功能,適用于物聯(lián)網(wǎng) IoT、運(yùn)維監(jiān)控、金融分析等場(chǎng)景。CeresDB開(kāi)源項(xiàng)目負(fù)責(zé)人任春韶表示,“希望通過(guò)開(kāi)源幫助開(kāi)發(fā)者解決時(shí)間序列數(shù)據(jù)存儲(chǔ)的水平擴(kuò)展與高可用的痛點(diǎn),助力海量數(shù)據(jù)場(chǎng)景的開(kāi)發(fā)效率。”目前該項(xiàng)目?jī)?nèi)核HoraeDB已捐獻(xiàn)到 Apache開(kāi)源基金會(huì)。
AI及大模型浪潮,為科技創(chuàng)新帶來(lái)了機(jī)遇與挑戰(zhàn)。對(duì)于開(kāi)源來(lái)說(shuō),也蘊(yùn)藏了新的生機(jī)。比如在基礎(chǔ)軟件開(kāi)發(fā)領(lǐng)域,大模型與數(shù)據(jù)庫(kù)的結(jié)合產(chǎn)生了新的火花。
今年6月,螞蟻集團(tuán)發(fā)起了數(shù)據(jù)庫(kù)領(lǐng)域大模型框架DB-GPT。結(jié)合大模型與數(shù)據(jù)庫(kù),DB-GPT可以系統(tǒng)構(gòu)建企業(yè)知識(shí)庫(kù)、生成式報(bào)表分析系統(tǒng)(GBI)、日常數(shù)據(jù)處理與報(bào)表等多種應(yīng)用。DB-GPT開(kāi)源項(xiàng)目負(fù)責(zé)人陳發(fā)強(qiáng)表示,“基于大模型和數(shù)據(jù)庫(kù),企業(yè)及開(kāi)發(fā)者可以用更少的代碼搭建自己的專屬應(yīng)用。我們希望DB-GPT構(gòu)建大模型領(lǐng)域的基礎(chǔ)設(shè)施,讓圍繞數(shù)據(jù)庫(kù)構(gòu)建大模型應(yīng)用更簡(jiǎn)單、更方便”。據(jù)了解,DB-GPT從個(gè)人項(xiàng)目出發(fā), 半年時(shí)間成長(zhǎng)為近萬(wàn)星的開(kāi)源社區(qū),受到了行業(yè)和開(kāi)發(fā)者認(rèn)可。
本次大會(huì)還探討了一些硬核技術(shù)痛點(diǎn)難點(diǎn)。AI和大模型的爆發(fā)帶來(lái)了算力焦慮,對(duì)系統(tǒng)的效率提出了更苛刻的要求。圍繞大模型的應(yīng)用開(kāi)發(fā),螞蟻集團(tuán)AI 基礎(chǔ)設(shè)施負(fù)責(zé)人張科分享了螞蟻的AI工程實(shí)踐。他表示,螞蟻通過(guò)系統(tǒng)的智能化,解決了系統(tǒng)的效率優(yōu)化問(wèn)題,全面覆蓋了訓(xùn)練推理引擎框架,在線服務(wù),GPU集群調(diào)度與虛擬化,工程智能等多個(gè)領(lǐng)域的效率提升。目前這套體系中的分布式訓(xùn)練系統(tǒng)服務(wù) DLRover、顯存和傳輸優(yōu)化庫(kù) GLake已開(kāi)源。
張科還介紹,螞蟻建設(shè)了萬(wàn)卡以上異構(gòu)集群,千卡以上訓(xùn)練算力效率(HFU)超過(guò)60%,有效訓(xùn)練時(shí)長(zhǎng)占比95%以上,RLHF訓(xùn)練在同等模型效果下訓(xùn)練吞吐性能相較于業(yè)界方案提升3.59倍,推理性能相較于業(yè)界方案提升約2倍,處于業(yè)界先進(jìn)水平?!澳壳斑@套技術(shù)能力已經(jīng)應(yīng)用于螞蟻百靈大模型,將帶來(lái)更加綠色高效的算力”,張科強(qiáng)調(diào)。
(圖:螞蟻集團(tuán)張科分享AI工程化實(shí)踐)
本次會(huì)上,螞蟻集團(tuán)還主辦了“信息和數(shù)據(jù)安全前沿論道”分論壇,國(guó)內(nèi)外專家圍繞大模型隱私保護(hù)、數(shù)據(jù)安全、量子密碼等展開(kāi)了討論。由螞蟻集團(tuán)主導(dǎo)開(kāi)源的“銅鎖”項(xiàng)目,成立了項(xiàng)目管理委員會(huì),將致力于密碼學(xué)研究,以及商業(yè)密碼的行業(yè)應(yīng)用推廣及生態(tài)共建。