自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="rdx1v"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

Meta AI 多語言閱讀理解數(shù)據(jù)集 Belebele，涵蓋 122 種語言變體

2023-09-04 19:19:36

開發(fā) 前端

研究人員利用這個數(shù)據(jù)集評估了多語言屏蔽語言模型（MLM）和大語言模型（LLM）的能力。結果表明，盡管以英語為中心的 LLM 有顯著的跨語言遷移能力，但在平衡的多語言數(shù)據(jù)上經(jīng)過預訓練的更小的 MLM 仍然能理解更多的語言。

Meta AI 宣布推出一款涵蓋 122 種語言變體的多語言閱讀理解數(shù)據(jù)集，名為 Belebele?！拔覀兿Ｍ@項工作能夠引發(fā)圍繞 LLM 多語言性的新討論”。

BELEBELE 是首個跨語言并行數(shù)據(jù)集，可以直接比較所有語言的模型性能。該數(shù)據(jù)集涵蓋了 29 種腳本和 27 個語系中不同類型的高、中、低資源語言。此外，還有 7 種語言包含在兩種不同的腳本中，從而為印地語、烏爾都語、孟加拉語、尼泊爾語和僧伽羅語的羅馬化變體制定了首個 NLP 基準。

該數(shù)據(jù)集可對單語和多語模型進行評估，但其并行性也可在一些跨語言環(huán)境中對跨語言文本表征進行評估。通過從相關質(zhì)量保證數(shù)據(jù)集中收集訓練集，可以對任務進行全面微調(diào)評估。每個問題都基于 Flores-200 數(shù)據(jù)集中的一段短文，并有四個多項選擇答案。這些問題經(jīng)過精心設計，以區(qū)分具有不同一般語言理解水平的模型。

每種語言有 900 道題
488 個不同段落，每個段落有 1-2 道相關問題。
每道題有 4 個選擇答案，其中只有一個是正確的。
122 種語言 / 語言變體（包括英語）。
900 x 122 = 109,800 個問題。

研究人員利用這個數(shù)據(jù)集評估了多語言屏蔽語言模型（MLM）和大語言模型（LLM）的能力。結果表明，盡管以英語為中心的 LLM 有顯著的跨語言遷移能力，但在平衡的多語言數(shù)據(jù)上經(jīng)過預訓練的更小的 MLM 仍然能理解更多的語言。且詞匯量越大、越有意識地構建詞匯，在低資源語言上的表現(xiàn)就越好。

責任編輯：武曉燕來源： OSCHINA

語言模型 LLM

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<style id="d9hvp"></style><cite id="d9hvp"></cite>

<sub id="d9hvp"><p id="d9hvp"></p></sub>