為什么說數(shù)據(jù)是人工智能的基礎(chǔ)
什么是數(shù)據(jù)標(biāo)注?
大多數(shù)數(shù)據(jù)都沒有標(biāo)注是非結(jié)構(gòu)化數(shù)據(jù),而人工智能訓(xùn)練需要的是計(jì)算機(jī)可以讀懂的結(jié)構(gòu)化數(shù)據(jù)。帶標(biāo)簽的數(shù)據(jù),意味著標(biāo)注或注釋目標(biāo)模型的數(shù)據(jù),以便可以進(jìn)行訓(xùn)練、預(yù)測。通常,數(shù)據(jù)標(biāo)注包括數(shù)據(jù)標(biāo)注、注釋、審核、分類、轉(zhuǎn)錄和處理。標(biāo)注的數(shù)據(jù)是為了突出顯示某些特征,并根據(jù)這些特征對其進(jìn)行分類,通過模型分析其模式以預(yù)測新的目標(biāo)。
數(shù)據(jù)在人工智能項(xiàng)目中占用多少時(shí)間?
訓(xùn)練機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型,需要豐富的數(shù)據(jù),以便將其用于部署,訓(xùn)練和調(diào)整模型。訓(xùn)練機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型需要大量經(jīng)過仔細(xì)標(biāo)注的數(shù)據(jù)。標(biāo)注原始數(shù)據(jù)并準(zhǔn)備將其應(yīng)用于機(jī)器學(xué)習(xí)模型和其他AI工作流,被稱為數(shù)據(jù)標(biāo)注。根據(jù)相關(guān)統(tǒng)計(jì),數(shù)據(jù)整理在AI項(xiàng)目中消耗了80%以上的時(shí)間。通常在一個(gè)人工智能項(xiàng)目中,數(shù)據(jù)的需求也分3次左右,第一次是在項(xiàng)目開始的驗(yàn)證階段,需求數(shù)量量比較小,需要確定可行性及規(guī)則;第二次是項(xiàng)目正式啟動,需要大量的數(shù)據(jù)對模型進(jìn)行訓(xùn)練;第三次是在訓(xùn)練并驗(yàn)證完成后,對一些不滿意的地方進(jìn)行訓(xùn)練集的補(bǔ)充,以達(dá)到預(yù)期的目標(biāo)。下圖是在人工智能機(jī)器學(xué)習(xí)項(xiàng)目中各個(gè)任務(wù)的時(shí)間占比。

數(shù)據(jù)標(biāo)注在人工智能中的成本占比多少?
與數(shù)據(jù)相關(guān)的機(jī)器學(xué)習(xí)成本主要表現(xiàn)在數(shù)據(jù)集方面,包括數(shù)據(jù)集的采集、清洗、數(shù)據(jù)的標(biāo)注等。Dimensional Research 代表 Alegion 所做的一項(xiàng)最新研究表明,所有組織中的 96%都遇到了與訓(xùn)練數(shù)據(jù)質(zhì)量和數(shù)量相關(guān)的問題。同一項(xiàng)研究表明,大多數(shù)項(xiàng)目需要超過 100,000 個(gè)數(shù)據(jù)樣本才能表現(xiàn)良好。

Dimensional Research 研究的圖表說明了公司在數(shù)據(jù)方面面臨的最常見的一些問題。
如果還沒有數(shù)據(jù),可以假設(shè)能夠在大約一個(gè)小時(shí)內(nèi)收集 5–10 個(gè)樣本并對它們進(jìn)行標(biāo)注。利用 亞馬遜的 Mechanical Turk 之類的服務(wù)來驗(yàn)證整個(gè)項(xiàng)目過程,生成 100,000 個(gè)合格樣本數(shù)據(jù)集的話,花費(fèi)大約為 70,000 美元。
如果已經(jīng)收集了大量數(shù)據(jù),則可以使用專業(yè)的數(shù)據(jù)標(biāo)注服務(wù)公司來對其進(jìn)行標(biāo)注。在這種情況下,獲得 100,000 個(gè)帶有標(biāo)簽的數(shù)據(jù)樣本,則可能需要花費(fèi) 8,000 到 80,000 美元的費(fèi)用,具體的需要取決于標(biāo)注的復(fù)雜程度。
此外,檢查和校正數(shù)據(jù)樣本與生成和標(biāo)注數(shù)據(jù)樣本一樣耗時(shí)。Dimensional Research 研究報(bào)告中提到,66%的公司在其數(shù)據(jù)集中遇到偏差和錯誤問題。有些公司選擇采用完整的內(nèi)部方法(自己做所有標(biāo)注),也有一些公司會選擇外包和內(nèi)部混合使用。第二種常見的情況是將大部分工作外包,然后由公司個(gè)別人員負(fù)責(zé)驗(yàn)證和清理。外包 10 萬個(gè)數(shù)據(jù)樣本的初始成本可能會增加大約 2500 至 5,000 美元。
除了數(shù)據(jù)成本外,還有算法人工成本、算力設(shè)備成本、項(xiàng)目落地成本。除去附加項(xiàng)成本和一系列功耗所帶來的成本,機(jī)器學(xué)習(xí)項(xiàng)目可能會使公司花費(fèi) 51,750 美元至 136,750 美元(不包括難以確定的其他成本)。價(jià)格差異主要是由數(shù)據(jù)的決定的。這是一個(gè)非常樂觀的估計(jì)。如果企業(yè)位于美國,并且使用的是優(yōu)質(zhì)的數(shù)據(jù)(自由職業(yè)者不會這樣做),則與人才相關(guān)的費(fèi)用將激增,使人工智能機(jī)器學(xué)習(xí)項(xiàng)目的費(fèi)用超過 108,500 美元。
這樣高昂的價(jià)格使想要解決新問題或讓其流程自動化。決策的個(gè)人、小型團(tuán)隊(duì)和初創(chuàng)企業(yè)無法使承擔(dān)。
數(shù)據(jù)處理中最難的是什么?
最艱難的步驟是第一步:獲取數(shù)據(jù)。沒有數(shù)據(jù),幾乎不可能在研究階段驗(yàn)證機(jī)器學(xué)習(xí)解決方案,從而導(dǎo)致項(xiàng)目進(jìn)度幾乎無法進(jìn)行。
隨著工業(yè)、醫(yī)療、安防、教育、金融等領(lǐng)域意識到未來人工智能對于行業(yè)改變的重要性,都紛紛入局開發(fā)自己的人工智能應(yīng)用,但是隨著這些領(lǐng)域越來越重視數(shù)據(jù)保密性及數(shù)據(jù)的安全性,這些因素都可能會導(dǎo)致人工智能研究的私有化。人工智能逐漸趨于私有化確是事實(shí),在這個(gè)大環(huán)境之下,數(shù)據(jù)標(biāo)注服務(wù)、訓(xùn)練模型平臺、算力設(shè)備等都已經(jīng)研究出各自的私有化部署的解決方案。