智源發(fā)布全球最大中英文向量模型訓(xùn)練數(shù)據(jù)集！規(guī)模高達(dá)3億文本對

作者：新智元 2023-09-16 13:31:25

為推動(dòng)大模型開源生態(tài)，智源研究院發(fā)布全球最大面向中英文語義向量模型訓(xùn)練數(shù)據(jù)集。

9月15日，北京人工智能產(chǎn)業(yè)峰會(huì)暨中關(guān)村科學(xué)城科創(chuàng)大賽頒獎(jiǎng)典禮現(xiàn)場，智源研究院發(fā)布面向中英文語義向量模型訓(xùn)練的大規(guī)模文本對數(shù)據(jù)集MTP（massive text pairs）。

這是全球最大的中、英文文本對訓(xùn)練數(shù)據(jù)集，數(shù)據(jù)規(guī)模達(dá)3億對，具有規(guī)模巨大、主題豐富、數(shù)據(jù)質(zhì)量高三大特征，進(jìn)而可以推動(dòng)解決中文模型訓(xùn)練數(shù)據(jù)集缺乏問題。

通用語義向量模型是決定大模型性能的關(guān)鍵組件，可以鏈接外模型與外部知識(shí)；由「關(guān)聯(lián)文本」為基本元素的優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)，是構(gòu)建通用語義向量模型的核心要素。

本次開源的MTP數(shù)據(jù)集，正是智源BGE中英文語義向量模型訓(xùn)練所用中英文數(shù)據(jù)。

3億中英向量模型訓(xùn)練數(shù)據(jù)開放

數(shù)據(jù)在大模型訓(xùn)練中至關(guān)重要，構(gòu)建高質(zhì)量開源數(shù)據(jù)集，特別是用于訓(xùn)練基礎(chǔ)模型的開源數(shù)據(jù)集對大模型發(fā)展意義重大，然而中文社區(qū)卻鮮少數(shù)據(jù)開源貢獻(xiàn)者。

本次發(fā)布的全球最大語義向量模型訓(xùn)練數(shù)據(jù)MTP，具備如下特征：

- 規(guī)模巨大：

3億文本對，中文1億，英文2億。

- 主題豐富：

源自海量優(yōu)質(zhì)文本數(shù)據(jù)，涉及搜索、社區(qū)問答、百科常識(shí)、科技文獻(xiàn)等多種主題。

- 數(shù)據(jù)質(zhì)量高：

數(shù)據(jù)經(jīng)過必要的采樣、抽取、過濾獲得；由該數(shù)據(jù)訓(xùn)練得到的語義向量模型BGE (BAAI General Embedding)性能大幅領(lǐng)先同類別模型。

MTP數(shù)據(jù)集鏈接：https://data.baai.ac.cn/details/BAAI-MTP

BGE 模型鏈接：https://huggingface.co/BAAI

BGE 代碼倉庫：https://github.com/FlagOpen/FlagEmbedding

鑒于數(shù)據(jù)的重要性，智源在2021年就推出了全球最大語料庫WuDaoCorpora，開放200GB高質(zhì)量低風(fēng)險(xiǎn)中文語料，由400余個(gè)產(chǎn)學(xué)研單位合作，已有770多個(gè)研發(fā)團(tuán)隊(duì)申請，為微軟、哈佛大學(xué)、斯坦福大學(xué)、華為、阿里巴巴、騰訊、鵬城實(shí)驗(yàn)室等提供數(shù)據(jù)服務(wù)，有效支撐全球大模型相關(guān)研究。

今年開放的最大規(guī)模、可商用、持續(xù)更新的中文開源指令數(shù)據(jù)集COIG，由來自全球40余個(gè)機(jī)構(gòu)的100多名工程師共同參與，創(chuàng)造了跨越國界、緊密合作的全球數(shù)據(jù)開源動(dòng)人故事。

下載達(dá)數(shù)十萬，廣受歡迎的BGE模型升級更新

BGE 語義向量模型一經(jīng)發(fā)布就備受大模型開發(fā)者社區(qū)關(guān)注，目前Hugging Face累計(jì)下載量達(dá)到數(shù)十萬，且已被LangChain, LangChain-Chatchat, llama_index 等知名開源項(xiàng)目集成。

中文語義向量模型評測（C-MTEB）

英文語義向量模型評測榜（MTEB）

Langchain官方推文：「BGE模型在MTEB基準(zhǔn)上排名第一」

LangChain聯(lián)合創(chuàng)始人兼首席執(zhí)行官Harrison Chase推薦

基于社區(qū)反饋，BGE進(jìn)一步優(yōu)化更新，表現(xiàn)更加穩(wěn)健、出色。具體升級如下：

- 模型更新：

BGE-*-zh-v1.5緩解了相似度分布問題，通過對訓(xùn)練數(shù)據(jù)進(jìn)行過濾，刪除低質(zhì)量數(shù)據(jù)，提高訓(xùn)練時(shí)溫度系數(shù)temperature至0.02，使得相似度數(shù)值更加平穩(wěn) 。

- 新增模型：

開源BGE-reranker 交叉編碼器模型，可更加精準(zhǔn)找到相關(guān)文本，支持中英雙語。不同于向量模型需要輸出向量，BGE-reranker直接文本對輸出相似度，排序準(zhǔn)確度更高，可用于對向量召回結(jié)果的重新排序，提升最終結(jié)果的相關(guān)性。

- 新增功能：

BGE1.1增加難負(fù)樣本挖掘腳本，難負(fù)樣本可有效提升微調(diào)后檢索的效果；在微調(diào)代碼中增加在微調(diào)中增加指令的功能；模型保存也將自動(dòng)轉(zhuǎn)成 sentence transformer 格式，更方便模型加載。

值得一提的是，日前智源聯(lián)合Hugging Face發(fā)布了一篇技術(shù)報(bào)告，報(bào)告提出用C-Pack增強(qiáng)中文通用語義向量模型。

報(bào)告地址：https://arxiv.org/abs/2309.07597

構(gòu)建大模型時(shí)代的類Linux生態(tài)

伴隨2022年末ChatGPT 橫空出世，全球大模型研發(fā)進(jìn)入如火如荼的爆發(fā)期，而激烈的競爭與高昂的成本，也同時(shí)推動(dòng)著開源崛起成為人工智能發(fā)展的關(guān)鍵推動(dòng)力量。

標(biāo)志性的事件是今年5月在全球人工智能圈廣為流傳的一篇Google內(nèi)部文件，聲稱「開源AI將擊敗谷歌和OpenAI」；來自Meta的代表性開源模型 Llama則對當(dāng)前產(chǎn)業(yè)發(fā)展起到至關(guān)重要的作用。

作為中國大模型開源生態(tài)圈的代表機(jī)構(gòu)，智源正在著力打造FlagOpen飛智大模型技術(shù)開源體系，引領(lǐng)共建共享大模型時(shí)代的「類Linux」開源開放生態(tài)。

上線于2022年11月，正式發(fā)布于2023年2月，F(xiàn)lagOpen大模型技術(shù)開源體系先見性地預(yù)見大模型開源建設(shè)這一大勢所趨。

現(xiàn)在，智源大模型技術(shù)開體系 FlagOpen 新增 FlagEmbedding 版塊，聚焦于 Embedding 技術(shù)和模型，BGE 是其中首個(gè)開源模型。

FlagEmbedding：https://github.com/FlagOpen/FlagEmbedding

在BGE項(xiàng)目之外，F(xiàn)lagOpen還有包括大模型算法、模型、數(shù)據(jù)、工具、評測等重要組成部分。

其中，F(xiàn)lagEval（天秤）大模型評測體系及開放平臺(tái)，構(gòu)建3維評測體系、覆蓋600余項(xiàng)全面能力評測，旨在建立科學(xué)、公正、開放的評測基準(zhǔn)、方法、工具集，協(xié)助研究人員全方位評估基礎(chǔ)模型及訓(xùn)練算法的性能。

每月發(fā)布的FlagEval大模型評測榜單，對主流模型進(jìn)行多維評測解讀，打造公正全面金標(biāo)準(zhǔn)，正在愈來愈成為大模型能力評價(jià)的風(fēng)向標(biāo)。

責(zé)任編輯：張燕妮來源：新智元

模型訓(xùn)練

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

智源發(fā)布全球最大中英文向量模型訓(xùn)練數(shù)據(jù)集！規(guī)模高達(dá)3億文本對

3億中英向量模型訓(xùn)練數(shù)據(jù)開放

下載達(dá)數(shù)十萬，廣受歡迎的BGE模型升級更新

構(gòu)建大模型時(shí)代的類Linux生態(tài)

智源發(fā)布全球最大中英文向量模型訓(xùn)練數(shù)據(jù)集！規(guī)模高達(dá)3億文本對

下載達(dá)數(shù)十萬，廣受歡迎的BGE模型升級更新