到底什么時候不應該使用機器學習?
大數(shù)據(jù)文摘出品
來源:towardsdatascience
作者:lin、Andy
對于什么時候應該使用機器學習/AI,很多人都會遲疑和顧慮,而作者正是因為經(jīng)歷了種種顧慮后,將經(jīng)驗總結成這篇文章,文摘菌編譯了這篇文章,希望大家能夠減少顧慮,更好地與機器學習或AI一起暢享學習之旅。
試想一下,你剛準備對一個臨床試驗的數(shù)據(jù)集上手進行分析一下。為了讓你有帶入感,我自己做了一份類似數(shù)據(jù):
假設這些數(shù)據(jù)列出了患者在60天的療程內(nèi),所接受的治療天數(shù)(輸入特征)以和某某療法正確劑量(輸出預測)之間的對應關系。
現(xiàn)在想象一下你正在治療一個病人,今天是第二天,那么你會建議服用多少劑量的藥物呢?
你肯定會回答“17毫克”,因為這個太簡單了,白紙黑字直接寫著。那第四天呢?看看表,41毫克?完全正確!
那么現(xiàn)在,如果讓你寫一個軟件來輸出1-5天的正確劑量呢?你會用機器學習嗎?換句話說,你會試著先在這些數(shù)據(jù)中尋找模式,然后轉(zhuǎn)化成從輸入到輸出的模型嗎?
不會,當然不會,傻子才會!你會讓軟件像你前面做的一樣:直接去表里查結果就行。這樣你就能100% 得到在所有60天內(nèi)的正確答案。不需要尋找模式也不需要什么機器學習。
哪種情況下你需要機器學習
比如現(xiàn)在,是第61天如何?正確答案是什么呢?
那么首先,我們從來沒見過第61天的數(shù)據(jù),因此無法查找答案。那怎么辦呢?怪運氣不好沒第61天數(shù)據(jù)嗎?還是給目光投向機器學習?那也就還要看情況了。
如果輸入輸出之間沒有什么模式可言的話,就忘掉機器學習吧。在這樣的案例中,它基本上很難發(fā)揮作用...如果你覺得機器學習可以處理的話,那還是盡早放棄這個想法吧!
那什么情況下可以考慮機器學習呢?
第一,必須找到有用的模式:如果數(shù)據(jù)里有一個模式(說如果),而且能發(fā)現(xiàn)它,那就可以嘗試用它預測或猜測第61天的結果。這樣機器學習就有用。
第二,模式必須能泛化:現(xiàn)在問題是,光是數(shù)據(jù)里有一個模式還不夠,太簡單了。我們還要知道,該模式在60天之后還能適用嗎。如果第61天的條件完全不同,導致模式不能泛化怎么辦?因為你要知道,也許在第61天所有患者就已治愈或死亡,或開始服用不相容藥物。那么這時,在之前數(shù)據(jù)中發(fā)現(xiàn)的模式就不會太有用。
第三,非平穩(wěn)世界:如果你的數(shù)據(jù)并不能很好的反應未來—也許因為一場大流行改變了世界的一些運行規(guī)則,那么之前獲得的數(shù)據(jù)再好也沒什么價值。如果你生活在宇宙中一個不穩(wěn)定的角落,那你就很難驗證一般所說的遍歷性和平穩(wěn)性假設,翻譯成人話就是“我相信規(guī)則并沒有什么改變。”
這里,我說的不穩(wěn)定并非旁人眼中所謂的不穩(wěn)定現(xiàn)象,例如通貨膨脹導致的物品平均價格隨時間的波動。這種簡單的不穩(wěn)定性(隨時間變化的可預測函數(shù))是時序分析領域處理的問題。
其實我想談的是,那種你幾乎束手無策的極端不穩(wěn)定性,因為系統(tǒng)規(guī)則從本質(zhì)上改變,所以無法從一個周期去預測下一個。如果你過去的數(shù)據(jù)突然無法適用不確定的未來,你也就很難坦然地用昨天去預測明天。
也許你運氣很好。
如果現(xiàn)在有一個模式,而且這個模式適用于新條件,那么就可以直接開干了。先通過已有數(shù)據(jù)去找到這個模式,做出一個模型,之后用它去獲取第61以及之后每天的數(shù)據(jù)!
尋找模式并使用它們,這就是所謂的機器學習。
何時使用機器學習
在應用機器學習和AI時,你不是單純重復之前見過的例子—這根本不用機器學習來做,只要查下表就行!記住,你是來讓模型學習的。
只是重復舊答案嗎?不,ML可以做得更好!它能在新實例上也進行預測。
你的任務是?搭建一套可以成功泛化的解決方案,或者…放棄治療。
換句話說,如果你的解決方案不能處理之前從未見過的新示例,那么它就不是好的解決方案。當然這個新示例并不用完全打破穩(wěn)定宇宙的所有規(guī)則,而只是在相關學習主題上有一些小變動。
我們不是在鸚鵡學舌,而是需要泛化到新情況。那才是機器學習的威力和魅力。
如果你從未見過某個具體的數(shù)據(jù)組合(比如第61天的數(shù)據(jù)),那么如何獲得它地答案? 好吧,也許這就需要給舊模式總結成一個模型,之后用它來預測。例如,如果你從成千上萬的動物照片中訓練了一個貓分類器,你可以讓它告訴你一張新照片中是否有貓,但你不應該讓它告訴你一幅畫是否立體派風格。
機器學習適合你嗎
如果你討厭我稱機器學習為事物標簽器,或是另一種編寫代碼的方法,那么就讓換一種說法吧。
機器學習是一種自動化重復決策的方法,包括用算法從數(shù)據(jù)中尋找模式,并利用這些模式來正確處理新數(shù)據(jù)。
要了解機器學習是否適合你,我提供了三個你可能會喜歡的指南:
- 是ML / AI項目入門者嗎?22項實用檢查清單:http://bit.ly/quaesita_realitycheck
- 查找ML / AI用例的建議:http://bit.ly/quaesita_island
- ML / AI入門?從這里開始:http://bit.ly/quaesita_dmguide
那么,存在有用的模式嗎?
如果仍舊對第61天的結果好奇?那么我可以告訴你,其實示例數(shù)據(jù)中是有一個模式地。我知道這個,因為這是我設置的。甚至我可以向你保證,它將泛化到你能想到的最大數(shù)字再加一天,因為在這個極度不穩(wěn)定的時代,我發(fā)現(xiàn)能用一個這樣能隨改變有規(guī)律變化的數(shù)據(jù)真是一個奢侈的享受,所以讓大家也奢侈一下。
對于那些喜歡挑戰(zhàn)的人,不妨試試看自己喜歡的機器學習算法能否找到這個數(shù)據(jù)中的模式?讓我知道你認為的第61天的答案是什么。大約一周內(nèi),我會在注釋中添加用于生成這些數(shù)據(jù)的代碼,這樣你們就能知道自己是否做對了。
我也懷疑可能大部分人會通過分析的方法,而不是通過機器學習來解決。祝你好運吧!愿最好的方法獲勝!
如果你非常想嘗試ML,那請別忘了按正確的順序開始,好的方法能助你一臂之力。
相關報道:
https://towardsdatascience.com/when-not-to-use-machine-learning-or-ai-8185650f6a29
【本文是51CTO專欄機構大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】