AI項目這些致命錯誤,你都犯過嗎?
譯文?譯者 | 布加迪
審校 | 孫淑娟
由于數(shù)據(jù)是人工智能(AI)的核心,因此AI和機器學習(ML)系統(tǒng)需要足夠多的優(yōu)質(zhì)數(shù)據(jù)來學習也就不足為奇了。一般需要大量優(yōu)質(zhì)數(shù)據(jù),對于監(jiān)督學習方法尤為如此,才能正確訓練AI或ML系統(tǒng)。具體需要多少數(shù)據(jù),取決于所實施的AI的模式、所使用的算法以及內(nèi)部數(shù)據(jù)與第三方數(shù)據(jù)等其他因素。比如說,神經(jīng)網(wǎng)絡(luò)需要大量數(shù)據(jù)來訓練,而決策樹或貝葉斯分類器不需要那么多數(shù)據(jù)就能獲得高質(zhì)量結(jié)果。
于是,你可能認為數(shù)據(jù)越多越好,對吧?請再想想。擁有大量數(shù)據(jù)(甚至EB級數(shù)據(jù))的組織意識到,擁有更多數(shù)據(jù)并不代表如期望的那樣可以解決問題。確實,數(shù)據(jù)越多,問題越多。擁有的數(shù)據(jù)越多,需要清理和準備的數(shù)據(jù)就越多,需要標記和管理的數(shù)據(jù)就越多,需要加強安全、做好保護、減少偏誤及其他措施的數(shù)據(jù)就越多。當開始增加數(shù)據(jù)量時,小項目會迅速變成大項目。事實上,大量數(shù)據(jù)往往會扼殺項目。
很顯然,識別業(yè)務(wù)問題與整理數(shù)據(jù)以解決該問題之間缺少的步驟是,確定需要哪些數(shù)據(jù)、實際需要其中的多少數(shù)據(jù)。需要足夠多的數(shù)據(jù),但切忌過多:不多不少剛剛好。遺憾的是,組織常常還沒有了解數(shù)據(jù),就貿(mào)然上手AI項目。組織要回答諸多問題,包括弄清楚數(shù)據(jù)在哪里、已經(jīng)有多少數(shù)據(jù)、處于什么狀態(tài)、數(shù)據(jù)的哪些特征最重要、內(nèi)外數(shù)據(jù)的使用、數(shù)據(jù)訪問難題、增強現(xiàn)有數(shù)據(jù)方面的要求,以及其他關(guān)鍵因素和問題。如果不回答這些問題,AI項目可能會失敗,甚至淹沒在數(shù)據(jù)汪洋中。
1.更好地了解數(shù)據(jù)
為了了解自己需要多少數(shù)據(jù),先要了解數(shù)據(jù)在AI項目的結(jié)構(gòu)中所處的位置。有一種直觀的方式可幫助我們了解從數(shù)據(jù)中獲得的不斷增加的價值,那就是“DIKUW金字塔”(有時也叫“DIKW 金字塔”),它顯示了數(shù)據(jù)基礎(chǔ)如何通過信息、知識、理解和智慧,幫助獲取更大的價值。
憑借堅實的數(shù)據(jù)基礎(chǔ),你可以在下一個信息層獲得更深的洞察力,這可以幫助你回答有關(guān)該數(shù)據(jù)的基本問題。一旦在數(shù)據(jù)之間建立了基本的聯(lián)系以獲得信息洞察力,就可以在該信息中找到模式,了解各部分信息如何連接在一起,從而獲得更深入的洞察力。組織可以在知識層的基礎(chǔ)上,進一步了解這些模式為什么會出現(xiàn),從而獲得更多價值,幫助了解底層模式。最后,你可以在智慧層通過深入了解信息決策的因果關(guān)系,從信息中獲得最大的價值。
最近的這股AI浪潮最關(guān)注的是知識層,因為機器學習在信息層之上提供了識別模式的洞察力。遺憾的是,機器學習在理解層遇到了瓶頸,因為找出模式不足以進行推理。我們有機器學習,卻沒有了解模式為什么會出現(xiàn)的機器推理。每當你與聊天機器人交互時,都能看到這一局限性。雖然基于機器學習的自然語言處理(NLP)非常擅長理解人的語音、推測意圖,但它在試圖理解和推理時遇到了限制。比如說,如果你問語音助手明天要不要穿雨衣,它不明白你在問天氣。人類要向機器提供這種洞察力,因為語音助手不知道雨實際上是什么。
2.保持數(shù)據(jù)意識,以避免失敗
大數(shù)據(jù)已教會我們?nèi)绾翁幚泶罅繑?shù)據(jù)。不僅僅涉及數(shù)據(jù)如何存儲,還涉及如何處理、操作和分析所有這些數(shù)據(jù)。機器學習能夠處理組織收集的種種不同類型的非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)或結(jié)構(gòu)化數(shù)據(jù),從而增添了更多的價值。的確,最近的這股AI浪潮實際上是大數(shù)據(jù)驅(qū)動的分析浪潮。
但正是由于這個原因,一些組織在AI方面遭遇重創(chuàng)。它們不是從以數(shù)據(jù)為中心的角度運行AI項目,而是專注于功能方面。為了駕馭AI項目并避免致命錯誤,組織不僅要更好地理解AI和機器學習,還要更好地理解大數(shù)據(jù)的幾個“V”。這不僅關(guān)乎有多少數(shù)據(jù),還關(guān)乎數(shù)據(jù)的性質(zhì)。大數(shù)據(jù)的其中幾個V包括:
- 數(shù)量:擁有的大數(shù)據(jù)的絕對數(shù)量。
- 速度:大數(shù)據(jù)變化的速度。成功運用AI意味著將AI運用于高速數(shù)據(jù)。
- 多樣性:數(shù)據(jù)可以有多種不同的格式,包括數(shù)據(jù)庫等結(jié)構(gòu)化數(shù)據(jù)、發(fā)票等半結(jié)構(gòu)化數(shù)據(jù)以及電子郵件、圖像和視頻文件等非結(jié)構(gòu)化數(shù)據(jù)。成功的AI系統(tǒng)可以處理這種多樣性。
- 真實性:這是指數(shù)據(jù)的質(zhì)量和準確性以及你對該數(shù)據(jù)的信任程度。垃圾進垃圾出,在數(shù)據(jù)驅(qū)動的AI系統(tǒng)中尤為如此。因此,成功的AI系統(tǒng)需要能夠處理變化很大的數(shù)據(jù)質(zhì)量。
憑借數(shù)十年來管理大數(shù)據(jù)項目的經(jīng)驗,AI方面取得成功的組織主要在大數(shù)據(jù)方面取得了成功。那些目睹AI項目失敗的組織常常以應(yīng)用程序開發(fā)的思維來解決AI問題。
3.錯誤數(shù)據(jù)過多、正確數(shù)據(jù)不足在扼殺AI項目
雖然AI項目起步是正確的,但缺乏必要的數(shù)據(jù)以及缺乏了解、未解決實際問題在扼殺AI項目。組織在沒有真正了解需要的數(shù)據(jù)和數(shù)據(jù)質(zhì)量的情況下繼續(xù)前進,這帶來了真正的挑戰(zhàn)。
組織犯這個數(shù)據(jù)錯誤的原因之一是,除了使用敏捷或應(yīng)用程序開發(fā)方法外,它們在開展AI項目時沒有任何真正的方法。然而成功的組織已意識到,使用以數(shù)據(jù)為中心的方法將數(shù)據(jù)理解作為項目方法的第一個階段。CRISP-DM方法已存在了20多年,它將數(shù)據(jù)理解指定為確定業(yè)務(wù)需求后接下來要做的事情?;贑RISP-DM,并結(jié)合敏捷方法,AI認知項目管理(CPMAI)方法在第二個階段需要數(shù)據(jù)理解。其他成功的方法同樣需要在項目早期理解數(shù)據(jù),因為AI項目畢竟是數(shù)據(jù)項目。如果在不了解數(shù)據(jù)的情況下開展項目,如何在數(shù)據(jù)基礎(chǔ)上構(gòu)建成功的項目?這肯定是你要避免的致命錯誤。
原文鏈接:https://www.forbes.com/sites/cognitiveworld/2022/08/20/are-you-making-these-deadly-mistakes-with-your-ai-projects/?sh=352955946b54