智源發(fā)布全球最大中英文向量模型訓(xùn)練數(shù)據(jù)集!規(guī)模高達(dá)3億文本對
9月15日,北京人工智能產(chǎn)業(yè)峰會(huì)暨中關(guān)村科學(xué)城科創(chuàng)大賽頒獎(jiǎng)典禮現(xiàn)場,智源研究院發(fā)布面向中英文語義向量模型訓(xùn)練的大規(guī)模文本對數(shù)據(jù)集MTP(massive text pairs)。
這是全球最大的中、英文文本對訓(xùn)練數(shù)據(jù)集,數(shù)據(jù)規(guī)模達(dá)3億對,具有規(guī)模巨大、主題豐富、數(shù)據(jù)質(zhì)量高三大特征,進(jìn)而可以推動(dòng)解決中文模型訓(xùn)練數(shù)據(jù)集缺乏問題。
通用語義向量模型是決定大模型性能的關(guān)鍵組件,可以鏈接外模型與外部知識(shí);由「關(guān)聯(lián)文本」為基本元素的優(yōu)質(zhì)訓(xùn)練數(shù)據(jù),是構(gòu)建通用語義向量模型的核心要素。
本次開源的MTP數(shù)據(jù)集,正是智源BGE中英文語義向量模型訓(xùn)練所用中英文數(shù)據(jù)。
3億中英向量模型訓(xùn)練數(shù)據(jù)開放
數(shù)據(jù)在大模型訓(xùn)練中至關(guān)重要,構(gòu)建高質(zhì)量開源數(shù)據(jù)集,特別是用于訓(xùn)練基礎(chǔ)模型的開源數(shù)據(jù)集對大模型發(fā)展意義重大,然而中文社區(qū)卻鮮少數(shù)據(jù)開源貢獻(xiàn)者。
本次發(fā)布的全球最大語義向量模型訓(xùn)練數(shù)據(jù)MTP,具備如下特征:
- 規(guī)模巨大:
3億文本對,中文1億,英文2億。
- 主題豐富:
源自海量優(yōu)質(zhì)文本數(shù)據(jù),涉及搜索、社區(qū)問答、百科常識(shí)、科技文獻(xiàn)等多種主題。
- 數(shù)據(jù)質(zhì)量高:
數(shù)據(jù)經(jīng)過必要的采樣、抽取、過濾獲得;由該數(shù)據(jù)訓(xùn)練得到的語義向量模型BGE (BAAI General Embedding)性能大幅領(lǐng)先同類別模型。
MTP數(shù)據(jù)集鏈接:https://data.baai.ac.cn/details/BAAI-MTP
BGE 模型鏈接:https://huggingface.co/BAAI
BGE 代碼倉庫:https://github.com/FlagOpen/FlagEmbedding
鑒于數(shù)據(jù)的重要性,智源在2021年就推出了全球最大語料庫WuDaoCorpora,開放200GB高質(zhì)量低風(fēng)險(xiǎn)中文語料,由400余個(gè)產(chǎn)學(xué)研單位合作,已有770多個(gè)研發(fā)團(tuán)隊(duì)申請,為微軟、哈佛大學(xué)、斯坦福大學(xué)、華為、阿里巴巴、騰訊、鵬城實(shí)驗(yàn)室等提供數(shù)據(jù)服務(wù),有效支撐全球大模型相關(guān)研究。
今年開放的最大規(guī)模、可商用、持續(xù)更新的中文開源指令數(shù)據(jù)集COIG,由來自全球40余個(gè)機(jī)構(gòu)的100多名工程師共同參與,創(chuàng)造了跨越國界、緊密合作的全球數(shù)據(jù)開源動(dòng)人故事。
下載達(dá)數(shù)十萬,廣受歡迎的BGE模型升級更新
BGE 語義向量模型一經(jīng)發(fā)布就備受大模型開發(fā)者社區(qū)關(guān)注,目前Hugging Face累計(jì)下載量達(dá)到數(shù)十萬,且已被LangChain, LangChain-Chatchat, llama_index 等知名開源項(xiàng)目集成。
中文語義向量模型評測(C-MTEB)
英文語義向量模型評測榜(MTEB)
Langchain官方推文:「BGE模型在MTEB基準(zhǔn)上排名第一」
LangChain聯(lián)合創(chuàng)始人兼首席執(zhí)行官Harrison Chase推薦
基于社區(qū)反饋,BGE進(jìn)一步優(yōu)化更新,表現(xiàn)更加穩(wěn)健、出色。具體升級如下:
- 模型更新:
BGE-*-zh-v1.5緩解了相似度分布問題,通過對訓(xùn)練數(shù)據(jù)進(jìn)行過濾,刪除低質(zhì)量數(shù)據(jù),提高訓(xùn)練時(shí)溫度系數(shù)temperature至0.02,使得相似度數(shù)值更加平穩(wěn) 。
- 新增模型:
開源BGE-reranker 交叉編碼器模型,可更加精準(zhǔn)找到相關(guān)文本,支持中英雙語。不同于向量模型需要輸出向量,BGE-reranker直接文本對輸出相似度,排序準(zhǔn)確度更高,可用于對向量召回結(jié)果的重新排序,提升最終結(jié)果的相關(guān)性。
- 新增功能:
BGE1.1增加難負(fù)樣本挖掘腳本,難負(fù)樣本可有效提升微調(diào)后檢索的效果;在微調(diào)代碼中增加在微調(diào)中增加指令的功能;模型保存也將自動(dòng)轉(zhuǎn)成 sentence transformer 格式,更方便模型加載。
值得一提的是,日前智源聯(lián)合Hugging Face發(fā)布了一篇技術(shù)報(bào)告,報(bào)告提出用C-Pack增強(qiáng)中文通用語義向量模型。
報(bào)告地址:https://arxiv.org/abs/2309.07597
構(gòu)建大模型時(shí)代的類Linux生態(tài)
伴隨2022年末ChatGPT 橫空出世,全球大模型研發(fā)進(jìn)入如火如荼的爆發(fā)期,而激烈的競爭與高昂的成本,也同時(shí)推動(dòng)著開源崛起成為人工智能發(fā)展的關(guān)鍵推動(dòng)力量。
標(biāo)志性的事件是今年5月在全球人工智能圈廣為流傳的一篇Google內(nèi)部文件,聲稱「開源AI將擊敗谷歌和OpenAI」;來自Meta的代表性開源模型 Llama則對當(dāng)前產(chǎn)業(yè)發(fā)展起到至關(guān)重要的作用。
作為中國大模型開源生態(tài)圈的代表機(jī)構(gòu),智源正在著力打造FlagOpen飛智大模型技術(shù)開源體系,引領(lǐng)共建共享大模型時(shí)代的「類Linux」開源開放生態(tài)。
上線于2022年11月,正式發(fā)布于2023年2月,F(xiàn)lagOpen大模型技術(shù)開源體系先見性地預(yù)見大模型開源建設(shè)這一大勢所趨。
現(xiàn)在,智源大模型技術(shù)開體系 FlagOpen 新增 FlagEmbedding 版塊,聚焦于 Embedding 技術(shù)和模型,BGE 是其中首個(gè)開源模型。
FlagEmbedding:https://github.com/FlagOpen/FlagEmbedding
在BGE項(xiàng)目之外,F(xiàn)lagOpen還有包括大模型算法、模型、數(shù)據(jù)、工具、評測等重要組成部分。
其中,F(xiàn)lagEval(天秤)大模型評測體系及開放平臺(tái),構(gòu)建3維評測體系、覆蓋600余項(xiàng)全面能力評測,旨在建立科學(xué)、公正、開放的評測基準(zhǔn)、方法、工具集,協(xié)助研究人員全方位評估基礎(chǔ)模型及訓(xùn)練算法的性能。
每月發(fā)布的FlagEval大模型評測榜單,對主流模型進(jìn)行多維評測解讀,打造公正全面金標(biāo)準(zhǔn),正在愈來愈成為大模型能力評價(jià)的風(fēng)向標(biāo)。