AI文本翻譯系統(tǒng)質(zhì)量提升44%,利用超500億參數(shù)翻譯200種語言
Meta Platforms今天開放了NLLB-200的系統(tǒng)代碼,NLLB-200是Meta內(nèi)部開發(fā)的一個人工智能系統(tǒng),可以翻譯200種語言的文本。
Meta還公布了一套工具,旨在幫助研究人員更輕松地將NLLB-200應(yīng)用于軟件項目。
根據(jù)Meta的說法,NLLB-200可以理解的200種語言中,許多語言都沒有得到其他AI翻譯系統(tǒng)的良好支持。目前被廣泛使用的翻譯工具支持的非洲語言不到25種,而NLLB-200 支持多達55種非洲語言。
Meta表示,翻譯準(zhǔn)確性是NLLB-200優(yōu)于其他工具的另一個方面。Meta采用的是BLEU評估系統(tǒng)的準(zhǔn)確性標(biāo)準(zhǔn),BLEU是一種用于衡量機器翻譯文本質(zhì)量的算法。Meta稱,NLLB-200的BLEU評分比之前平均高出44%。
Meta首席執(zhí)行官Mark Zuckerberg表示:“我們剛剛開源了一個自主開發(fā)的AI模型,該模型可以翻譯200種不同的語言——其中許多語言未得到當(dāng)前翻譯系統(tǒng)的支持。我們把這個項目稱之為No Language Left Behind,我們使用的人工智能建模技術(shù)正在為全球數(shù)十億人所使用的語言進行高質(zhì)量的翻譯?!?/p>
NLLB-200有超過500億個參數(shù),這些配置決定了AI系統(tǒng)處理數(shù)據(jù)的方式。人工智能系統(tǒng)參數(shù)越多,準(zhǔn)確性就越高。
NLLB-200具有如此大量的參數(shù),并不是它能夠以高精度支持200種語言的唯一因素,因為NLLB-200系統(tǒng)還借鑒了Meta工程師開發(fā)的很多其他AI創(chuàng)新。
Meta使用內(nèi)部開發(fā)的LASER工具包為機器學(xué)習(xí)相關(guān)研究提供支持。研究人員使用該工具包可以對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,以一種語言執(zhí)行某個特定的任務(wù),然后相對輕松地使神經(jīng)網(wǎng)絡(luò)適應(yīng)其他語言,這對于翻譯這一用途來說是很有用處的。Meta開發(fā)了新的NLLB-200系統(tǒng),支持改進版LASER——LASER3。
LASER的原始版本包括一個名為LSTM的神經(jīng)網(wǎng)絡(luò),這是一個將文本轉(zhuǎn)換為AI系統(tǒng)可以理解的、以數(shù)學(xué)方式表示的專用組件。這種數(shù)學(xué)表示有助于生成更準(zhǔn)確的翻譯結(jié)果。在LASER3中,Meta用Transformer代替了LSTM神經(jīng)網(wǎng)絡(luò),前者是一種高級自然語言處理模型,可以更有效地執(zhí)行相同的任務(wù)。
Meta還使用了其他幾種方法來改進NLLB-200的功能,例如Meta升級了用于收集訓(xùn)練數(shù)據(jù)的系統(tǒng),并對AI訓(xùn)練工作流程進行了更改。
Meta使用內(nèi)部開發(fā)的Research SuperCluster超級計算機(如圖)來訓(xùn)練NLLB-200。今年1月Meta首次介紹Research SuperCluster的時候稱,該系統(tǒng)配備了6080個Nvidia最新的A100數(shù)據(jù)中心GPU,最終將升級到配置16000個GPU。
Meta計劃使用NLLB-200在Facebook、Instagram和其他平臺上提供更好的自動翻譯功能,預(yù)計該系統(tǒng)每天將支持超過250億次翻譯。
Meta在內(nèi)部努力推廣NLLB-200的同時,還計劃幫助其他企業(yè)組織將該系統(tǒng)應(yīng)用到他們自己的軟件項目中。
除了NLLB-200之外,Meta還開源了可用于訓(xùn)練AI的代碼,以及一個名為FLORES-200的數(shù)據(jù)集,用于評估翻譯的準(zhǔn)確性。Meta將提供高達200000美元的資金,以幫助非營利組織采用NLLB-200。除此之外,Meta還將與Wikimedia Foundation展開合作,將自動翻譯技術(shù)應(yīng)用于維基百科文章。