自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

智源發(fā)布全球最大中英文向量模型訓(xùn)練數(shù)據(jù)集!規(guī)模高達(dá)3億文本對

人工智能 新聞
為推動(dòng)大模型開源生態(tài),智源研究院發(fā)布全球最大面向中英文語義向量模型訓(xùn)練數(shù)據(jù)集。

9月15日,北京人工智能產(chǎn)業(yè)峰會(huì)暨中關(guān)村科學(xué)城科創(chuàng)大賽頒獎(jiǎng)典禮現(xiàn)場,智源研究院發(fā)布面向中英文語義向量模型訓(xùn)練的大規(guī)模文本對數(shù)據(jù)集MTP(massive text pairs)。

這是全球最大的中、英文文本對訓(xùn)練數(shù)據(jù)集,數(shù)據(jù)規(guī)模達(dá)3億對,具有規(guī)模巨大、主題豐富、數(shù)據(jù)質(zhì)量高三大特征,進(jìn)而可以推動(dòng)解決中文模型訓(xùn)練數(shù)據(jù)集缺乏問題。

圖片

通用語義向量模型是決定大模型性能的關(guān)鍵組件,可以鏈接外模型與外部知識(shí);由「關(guān)聯(lián)文本」為基本元素的優(yōu)質(zhì)訓(xùn)練數(shù)據(jù),是構(gòu)建通用語義向量模型的核心要素。

本次開源的MTP數(shù)據(jù)集,正是智源BGE中英文語義向量模型訓(xùn)練所用中英文數(shù)據(jù)。

3億中英向量模型訓(xùn)練數(shù)據(jù)開放

數(shù)據(jù)在大模型訓(xùn)練中至關(guān)重要,構(gòu)建高質(zhì)量開源數(shù)據(jù)集,特別是用于訓(xùn)練基礎(chǔ)模型的開源數(shù)據(jù)集對大模型發(fā)展意義重大,然而中文社區(qū)卻鮮少數(shù)據(jù)開源貢獻(xiàn)者。

圖片

本次發(fā)布的全球最大語義向量模型訓(xùn)練數(shù)據(jù)MTP,具備如下特征:

- 規(guī)模巨大:

3億文本對,中文1億,英文2億。

- 主題豐富:

源自海量優(yōu)質(zhì)文本數(shù)據(jù),涉及搜索、社區(qū)問答、百科常識(shí)、科技文獻(xiàn)等多種主題。

- 數(shù)據(jù)質(zhì)量高:

數(shù)據(jù)經(jīng)過必要的采樣、抽取、過濾獲得;由該數(shù)據(jù)訓(xùn)練得到的語義向量模型BGE (BAAI General Embedding)性能大幅領(lǐng)先同類別模型。

圖片

MTP數(shù)據(jù)集鏈接:https://data.baai.ac.cn/details/BAAI-MTP

BGE 模型鏈接:https://huggingface.co/BAAI

BGE 代碼倉庫:https://github.com/FlagOpen/FlagEmbedding

鑒于數(shù)據(jù)的重要性,智源在2021年就推出了全球最大語料庫WuDaoCorpora,開放200GB高質(zhì)量低風(fēng)險(xiǎn)中文語料,由400余個(gè)產(chǎn)學(xué)研單位合作,已有770多個(gè)研發(fā)團(tuán)隊(duì)申請,為微軟、哈佛大學(xué)、斯坦福大學(xué)、華為、阿里巴巴、騰訊、鵬城實(shí)驗(yàn)室等提供數(shù)據(jù)服務(wù),有效支撐全球大模型相關(guān)研究。

今年開放的最大規(guī)模、可商用、持續(xù)更新的中文開源指令數(shù)據(jù)集COIG,由來自全球40余個(gè)機(jī)構(gòu)的100多名工程師共同參與,創(chuàng)造了跨越國界、緊密合作的全球數(shù)據(jù)開源動(dòng)人故事。

下載達(dá)數(shù)十萬,廣受歡迎的BGE模型升級更新

BGE 語義向量模型一經(jīng)發(fā)布就備受大模型開發(fā)者社區(qū)關(guān)注,目前Hugging Face累計(jì)下載量達(dá)到數(shù)十萬,且已被LangChain, LangChain-Chatchat, llama_index 等知名開源項(xiàng)目集成。

中文語義向量模型評測(C-MTEB)  

 英文語義向量模型評測榜(MTEB)

 Langchain官方推文:「BGE模型在MTEB基準(zhǔn)上排名第一」

 LangChain聯(lián)合創(chuàng)始人兼首席執(zhí)行官Harrison Chase推薦

基于社區(qū)反饋,BGE進(jìn)一步優(yōu)化更新,表現(xiàn)更加穩(wěn)健、出色。具體升級如下:

- 模型更新:

BGE-*-zh-v1.5緩解了相似度分布問題,通過對訓(xùn)練數(shù)據(jù)進(jìn)行過濾,刪除低質(zhì)量數(shù)據(jù),提高訓(xùn)練時(shí)溫度系數(shù)temperature至0.02,使得相似度數(shù)值更加平穩(wěn) 。

- 新增模型:

開源BGE-reranker 交叉編碼器模型,可更加精準(zhǔn)找到相關(guān)文本,支持中英雙語。不同于向量模型需要輸出向量,BGE-reranker直接文本對輸出相似度,排序準(zhǔn)確度更高,可用于對向量召回結(jié)果的重新排序,提升最終結(jié)果的相關(guān)性。

- 新增功能:

BGE1.1增加難負(fù)樣本挖掘腳本,難負(fù)樣本可有效提升微調(diào)后檢索的效果;在微調(diào)代碼中增加在微調(diào)中增加指令的功能;模型保存也將自動(dòng)轉(zhuǎn)成 sentence transformer 格式,更方便模型加載。

值得一提的是,日前智源聯(lián)合Hugging Face發(fā)布了一篇技術(shù)報(bào)告,報(bào)告提出用C-Pack增強(qiáng)中文通用語義向量模型。

圖片

報(bào)告地址:https://arxiv.org/abs/2309.07597

構(gòu)建大模型時(shí)代的類Linux生態(tài)

伴隨2022年末ChatGPT 橫空出世,全球大模型研發(fā)進(jìn)入如火如荼的爆發(fā)期,而激烈的競爭與高昂的成本,也同時(shí)推動(dòng)著開源崛起成為人工智能發(fā)展的關(guān)鍵推動(dòng)力量。

標(biāo)志性的事件是今年5月在全球人工智能圈廣為流傳的一篇Google內(nèi)部文件,聲稱「開源AI將擊敗谷歌和OpenAI」;來自Meta的代表性開源模型 Llama則對當(dāng)前產(chǎn)業(yè)發(fā)展起到至關(guān)重要的作用。

作為中國大模型開源生態(tài)圈的代表機(jī)構(gòu),智源正在著力打造FlagOpen飛智大模型技術(shù)開源體系,引領(lǐng)共建共享大模型時(shí)代的「類Linux」開源開放生態(tài)。

上線于2022年11月,正式發(fā)布于2023年2月,F(xiàn)lagOpen大模型技術(shù)開源體系先見性地預(yù)見大模型開源建設(shè)這一大勢所趨。

現(xiàn)在,智源大模型技術(shù)開體系 FlagOpen 新增 FlagEmbedding 版塊,聚焦于 Embedding 技術(shù)和模型,BGE 是其中首個(gè)開源模型。

FlagEmbedding:https://github.com/FlagOpen/FlagEmbedding

在BGE項(xiàng)目之外,F(xiàn)lagOpen還有包括大模型算法、模型、數(shù)據(jù)、工具、評測等重要組成部分。

其中,F(xiàn)lagEval(天秤)大模型評測體系及開放平臺(tái),構(gòu)建3維評測體系、覆蓋600余項(xiàng)全面能力評測,旨在建立科學(xué)、公正、開放的評測基準(zhǔn)、方法、工具集,協(xié)助研究人員全方位評估基礎(chǔ)模型及訓(xùn)練算法的性能。

每月發(fā)布的FlagEval大模型評測榜單,對主流模型進(jìn)行多維評測解讀,打造公正全面金標(biāo)準(zhǔn),正在愈來愈成為大模型能力評價(jià)的風(fēng)向標(biāo)。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-08-09 10:08:00

模型AI

2023-09-15 13:08:56

AI訓(xùn)練

2020-11-18 10:29:07

模型人工智能開源

2021-06-04 10:34:19

AI

2021-09-30 11:20:01

AI 數(shù)據(jù)人工智能

2015-08-18 15:19:51

2021-03-22 11:16:50

人工智能應(yīng)用基礎(chǔ)設(shè)施

2020-09-10 08:54:09

全球消費(fèi)電子CE智能家居

2020-07-16 13:00:18

人工智能機(jī)器學(xué)習(xí)技術(shù)

2020-07-20 09:49:56

開源技術(shù) 趨勢

2021-06-02 00:03:02

人工智能悟道2.0

2020-06-08 11:16:06

百度

2021-10-15 15:26:10

AI 數(shù)據(jù)人工智能

2015-12-01 11:17:41

Windows 10Version 151鏡像

2024-05-15 17:30:51

開源模型

2024-06-11 08:40:00

2025-03-10 09:30:00

2025-04-14 09:26:00

2010-04-06 09:33:37

CentOS系統(tǒng)

2013-06-21 10:48:18

WP7Windows Pho中英文互翻譯
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)