如何成為一名數(shù)據(jù)科學家?或許你該聽聽這些知名數(shù)據(jù)科學家們給出的建議
最近,我在讀Sebastian Gutierrez’s “Data Scientists at Work”這本書,他采訪16個不同行業(yè)的16位數(shù)據(jù)科學家了解他們如何從理論思考問題和如何解決實際問題,數(shù)據(jù)是怎樣發(fā)揮作用,并且是如此成功。
16位受訪者在如何理解和從大量公共和私人企業(yè)類型的公司提取數(shù)據(jù)價值都處在前列位置,公司類型橫跨剛剛起步的初創(chuàng)公司,到主要的研究機構和人道主義非盈利組織,包含大量行業(yè):廣告,電子商務,電子郵件營銷,企業(yè)云計算,時尚業(yè),工業(yè)互聯(lián)網(wǎng),互聯(lián)網(wǎng)電視和娛樂,音樂,非營利組織,神經生物學,報紙和媒體,專業(yè)的社交網(wǎng)絡,零售業(yè),智能銷售和風險投資。
尤其是,Sebastia提出了開放式的問題,以便每位受訪者的個性和自發(fā)的思考過程能夠清楚和準確的分享。書中涉及的從業(yè)者分享數(shù)據(jù)科學對他們的意義,及他們怎么理解它的,他們的建議關于怎樣加入這個領域,和他們在領域內獲得數(shù)據(jù)科學家必須深刻理解才能成功的經驗的智慧。
在這一篇文章,我想去分享這些數(shù)據(jù)科學家如下問題的最佳答案:
你對開始學習數(shù)據(jù)科學的人有什么建議?
1 —Chirs Wiggins,紐約時報首席數(shù)據(jù)科學家,哥倫比亞應用數(shù)學專業(yè)副教授
“創(chuàng)造力和有心。你必須真正喜歡一些事你才原意長時間的思考它。當然,某種程度地質疑。因此這就是我喜歡博士生的一個原因-五年時間足夠培養(yǎng)探索能力,然后你能意識到你用某些方法做某件事情的是有問題的。反復經歷’冰火兩重天‘的感覺,犯一系列的錯誤并且修復它們是很棒的事情。我想博士生經歷的這個過程對于培養(yǎng)對看似正確的事情仍然抱有懷疑是非常有幫助的,特別是研究領域。我認為這是有幫助的,你可能快速地且輕易地走上錯誤的路徑,僅僅是因為第一個這條路上的相遇者看起來是言之鑿鑿的。
盡管這是一個令人生厭的答案,事實是你必須具備技術深度。數(shù)據(jù)科學不僅僅包括一個領域,因此目前還沒有認證。機器學習方面,獲得維基百科水平理解很容易。為了真正做到這一點,你需要了解針對現(xiàn)在的工作,什么才是合適的工具,而且你需要深刻理解每種工具的局限性。獲得上述的經驗是沒用捷徑的。你肯定會犯很多錯誤。你可能會強行把分類問題塞進聚類問題,或者是把聚類問題轉換假設檢驗問題。
一旦自己嘗試一些方法,對自己的方法無比自信,但最后你意識到自己完全不對,經歷過很多次上述的過程-你發(fā)現(xiàn)這需要經驗的積累,但不幸的是并沒有捷徑。你僅需要不斷地實踐,不斷犯錯,這是我喜歡在這個領域有若干年工作經驗人的另一個原因。某些領域里要成為一名專家需要很長時間。犯錯誤會持續(xù)很多年的時間。幾個世紀以來都是這樣。著名物理學家Niels Bohr(尼爾斯.玻爾)有句名言是這樣說的,他斷定成為領域內專家的方式就是犯過這個領域的每一個可能的錯誤。”
2 —Caitlin Smallwood,Netfilx的科學和算法部門的副總裁
“我想說做任何事情之前,硬著頭皮了解數(shù)據(jù)的基礎素質,盡管這不迷人也不有趣。換句話說,要努力理解是怎樣捕捉數(shù)據(jù),準確搞懂數(shù)據(jù)是怎樣定義,并且搞懂什么時候會造成數(shù)據(jù)缺失。如果數(shù)據(jù)缺失,這是不是意謂有些東西發(fā)生變化?數(shù)據(jù)僅僅是在這種特定情況下缺失嗎?這些細小的,微妙數(shù)據(jù)陷阱真的會影響你。他們真的會。
你可以用現(xiàn)存的最復雜算法,但它是古老的,垃圾的東西。你不能對原始數(shù)據(jù)視而不見,不管你進入到建模的步驟有多興奮。你需要對細節(jié)一絲不茍,在模型研發(fā)之前,你要檢查基礎數(shù)據(jù)的每一個細節(jié)。
隨著時間的推移,我所學到的另一件事情在一個系統(tǒng)環(huán)境中,混合算法總是比單一算法的表現(xiàn)要好,因為不同技術探索科研數(shù)據(jù)模式不同方面,尤其針對是復雜的大數(shù)據(jù)集。因盡管你可以單一的特殊的算法,通過迭代達到更好的效果,我?guī)缀蹩偸亲⒁獾剑夯旌纤惴ńM合往往比單一算法的表現(xiàn)更好。”
3 —Yann LeCun,F(xiàn)acebook人工智能研究總監(jiān),紐約大學數(shù)據(jù)科學/計算機科學/神經科學教授
“我經常被問到這個問題,往往我給相同的建議。我的建議是:如果你是本科生,學習一門盡可能多修數(shù)學和物理課程的專業(yè)。不幸的是,并且必須是有用的課程。我接下來要說的聽起來是自相矛盾的,但是攻讀工程學或物理學專業(yè)可能比數(shù)學、計算機科學或者是經濟學專業(yè)更合適。當然,你需要學習編程,因此你需要學習大量的計算機科學課程去學習編程機制。隨后,完成數(shù)據(jù)科學的畢業(yè)項目。學習本科階段的機器學習,人工智能或者是計算機視覺課相關技術,因為你需要初步探索這些技術。接下來,盡可能學習接觸到的數(shù)學和物理課程。尤其是會持續(xù)應用的數(shù)學課程:優(yōu)化,因為你是為將來遇到的挑戰(zhàn)做著準備。
數(shù)據(jù)科學或AI領域有大量不同類型的工作,做什么樣的準備取決于你想到達什么樣的高度。人們應該思考什么是他們真正想做的,然后再學習相關課程。目前熱門話題是深度學習,意謂著要用神經網(wǎng)絡學習和了解的經典問題,學習優(yōu)化,線性代數(shù)和相似的課程。這會幫你學習每天都會遇到的基礎的數(shù)據(jù)知識和基礎概念。”
4 —Erin,Shellman,Zymergen的數(shù)據(jù)科學主管,Nordstrom數(shù)據(jù)實驗室和 AWS S3的前數(shù)據(jù)科學家
“對于一直堅持要去學習的人,我必須說科學(Science)、技術(Technology)、工程(Engineering)及數(shù)學(Mathematics)領域是不假思索就能想到的主意,特別是技術(Technology)、工程(Engineering)及數(shù)學(Mathematics)學科。學習上述課程將會給你提供檢驗和了解世界的工具。那就是我怎樣看待數(shù)學,統(tǒng)計學和機器學習。對于數(shù)學本身,我不是特別感興趣,我感興趣的是如何應用數(shù)學來描繪事物。畢竟有現(xiàn)成的工具包,如果你對數(shù)學和統(tǒng)計不是很熱衷,學習這兩個學科并且思考如何在你熱衷的事情應用它們也是非常值得的。
對于像我一樣立志轉型的人,我會說它會很難。意識到改變行業(yè)是很困難的和你需要非常努力。改變是很難的并不僅限于數(shù)據(jù)科學領域---這就是生活。和數(shù)據(jù)科學領域沒有任何聯(lián)系是更加艱難的,但是你可以通過與樂于助人的人士見面或喝咖啡建立連接。我生活中首要準則就是‘跟隨’。如果你和具備你關注的素質的人談話,那就是在不斷進步。
數(shù)據(jù)科學家的帖子是很嚇人的,大多數(shù)的帖子讀起來像是數(shù)據(jù)科學的詞匯表。事實是技術改變非???,以至于沒有人具備一切并且把他們寫到帖子中的經驗。當你閱讀的時候,它讓人喘不過氣來,并且你也許能感覺到:這不是我要找的。我沒有任何技能并且我沒有什么可貢獻的。我將鼓勵你們反對這種思維方式,只要你一直改變并且學習新的東西,你就是很不錯的。
最重要的是,公司需要的是可以嚴格定義問題和設計解決方案的人。他們也需要善于學習的人。我認為這是核心技能。”
5 — Daniel Tunkelang,Twiggle首席搜索傳播者,領英的前搜索質量負責人
“針對來自數(shù)學和物理背景的同學,我則建議他們在學習軟件技能方面投入-特別是Hadoop 和R,它們是目前最廣泛使用的工具。軟件工程背景的同學應該參與機器學習的相關課程,參與真實數(shù)據(jù)的工程項目,這些都有大量的免費資源。正如很多前人所說,成為數(shù)據(jù)科學家的最好方式就是從事數(shù)據(jù)科學的相關工作。數(shù)據(jù)就在那里,且科學是不難以學習的,特別是數(shù)學,科學或工程背景的同學。
閱讀“The Unreasonable Effectiveness of Data”,一篇來自來自谷歌研究人員 : Alon Halevy, Peter Norvig和 Fernando Pereir 的經典論文。論文總結到:大數(shù)據(jù)比算法更有效。全文是值得閱讀的,文章提供最近使用網(wǎng)絡整合規(guī)模的數(shù)據(jù)從而提高語音識別和機器翻譯的成功的調查。然后是優(yōu)秀的測度方法,聽聽Monica Rogati 提到較高質量的數(shù)據(jù)大數(shù)據(jù)有效。理解和內在化這兩個觀點,你就會在成為數(shù)據(jù)科學家的路上更加順暢。”
6 — John Foreman,產品管理副總裁,MailChimp前首席數(shù)據(jù)科學家
“我發(fā)現(xiàn)找到和雇傭到合適的伙伴是困難的。這是一件特別難做的事情,因為當我們談論大學系統(tǒng)時,不論是在校大學生還是畢業(yè)的大學生,你僅專注在一件事情-你的專業(yè)。但是數(shù)據(jù)科學家有點像文藝復興從事人員,因為數(shù)據(jù)科學是內在的,多學科交叉的。
這就導致:數(shù)據(jù)科學家比計算機編程人員懂得更多的統(tǒng)計,且比統(tǒng)計學家善于編程的角色這樣的大笑話。這個笑話說明什么?它說明數(shù)據(jù)科學家是兩種知識都知道一點的人。但我要強調的是,他要比這兩個事情知道的更多。他們同樣知道怎樣進行溝通。他們同樣需要知道不僅僅是基礎統(tǒng)計知識,他們需要了解概率論,離散數(shù)學,微積分等。可視化手段也不會起反作用。他們同樣需要了解怎樣擺弄數(shù)據(jù),使用數(shù)據(jù)庫,甚至是一點OR。他們需要很多方面的知識。所以找到這樣的人變得很難,因為他們需要接觸過很多學科,且他們能夠機智地表達他們的經驗。這對任何申請人都是很高的要求。
雇人需要花費很長時間,這也是為什么我認為人們?yōu)槭裁磿恢闭f現(xiàn)在聰明絕頂?shù)奶觳艛?shù)據(jù)科學家還未出世。我認為某種程度上來說這是真的。我認為一些現(xiàn)存的程序會開始發(fā)揮作用。但是盡管如此,這些程序的出現(xiàn),但對Wimbledon來說:在數(shù)據(jù)科學領域如何應用多學科的經驗表達和溝通是特別的一棵。我希望立志成為一位數(shù)據(jù)科學家的路上,程序員更注意工作中溝通和合作的能力。”
7 — Roger Ehrenberg, IA風投合伙人
“我認為充斥最多機會的領域同樣伴隨最多的挑戰(zhàn)。在PII 和隱私方面,健康醫(yī)療數(shù)據(jù)顯而易見存在最大的問題。不僅如此,還有僵硬的官僚體制,固化的基礎設施和數(shù)據(jù)倉庫,讓需要很多數(shù)據(jù)集來解決苦難多問題變得困難。它將會發(fā)生的,我認為大量的,我們在這里談到的科學技術將會直接作用于提高我們的健康管理,價格更加親民,分配更加合理。我將之視為一代人的機會。
早些時候另一個巨大的領域是風險管理-不論是金融,交易或保險。當你談到把這些新數(shù)據(jù)納入到風險評估的時候,如果把新數(shù)據(jù)集納入到風險評估時,這是一個很大的問題-特別是當把新技術應用于像保險,健康管理等存在隱私問題和官僚體制的數(shù)據(jù)受限的領域。同時,這些古老的僵化的公司剛剛開始開放,和剛剛開辦如何在社區(qū)進行交互,來應用新技術。這是另一個讓我難以置信的興奮領域。
第三個讓我熱衷的領域是重塑手工業(yè)使之變得更加高效。一直存才讓手工制造業(yè)回返回陸的趨勢。一個強大的手工業(yè)部門是通向重新創(chuàng)造美國活躍的中產階級的一道橋。我認為科技可以幫助加速這個惠益的趨勢。”
8 — Claudia Perlach,Dstillery首席科學家
“我認為本質上,學習數(shù)據(jù)科學好比學習滑雪。你必須實踐。你可以僅僅聽很多視頻,觀察其發(fā)生。在白天結束時,你必須拿上你糟糕的滑板沖下山頭。你會在路上橫沖直撞很多次,這沒關系。這是學習的必經之路。實際上,我更偏好詢問面試者他們不順利的經歷,而不是他們成功的工作經驗,因為這告訴我他們在過程中學習到什么。
不論什么時候人們過來問我:“我應該做些什么?” 我回答,“嗯,當然,可以參加機器學習技術的線上課程。” 毫無疑問那是有幫助的。顯而易見你需要會編程,至少是一點點。你不必成為一位Java編程人員,但不論怎樣需要學些編程,我不在意以什么方式學習。
本質上,無論是在 DataKind 的NGOS項目貢獻你的時間來幫助他們,或者是去Kaggle 網(wǎng)站,參加他們的數(shù)據(jù)挖掘比賽-在實際中獲得經驗。特別是Kaggle,閱讀討論區(qū)來看看其他參賽者關于問題的討論,因為你可以學習到其他人的方法,什么方法對他們是有效的,什么是無效的。所以任何你在數(shù)據(jù)相關工作獲得的經驗,即使你沒有從中獲得報酬,都是超棒的事情。
記住,你必須從山上滑下來。沒有其他辦法。你不能學習除此之外的其它方法。所以貢獻你的時間,在你思考的路上摸爬滾打,如果你能得到實習的機會就更完美啦。除此之外,有很多你可以開始的機會。所以開始吧!”
9 — Jonathan Lenaghan, PlaceIQ首席科學家和產品研發(fā)部門高級副總裁
”首先且最重要的是:自我批評是非常重要。質疑你的假設,偏執(zhí)地對待你的輸出。這是容易的部分。談到在數(shù)據(jù)科學領域成功的必備技能,優(yōu)秀的的軟件工程能力是必備的。所以盡管我們會雇傭幾乎沒有編程背景的人,我們做很多工作讓他們迅速掌握工程中重要的實際能力,工程實踐和很多靈活的編程訓練。這對他們和我們都是有幫助的,現(xiàn)在這也在大多數(shù)一對一的數(shù)據(jù)科學場景中應用。
若你看看現(xiàn)今的開發(fā)運維,它們已有了像持續(xù)集成、持續(xù)構建、自動化測試和測試框架的玩意——所有的這些都能很好、很輕易地將開發(fā)運維映射到數(shù)據(jù)運維(一個我從RedMonk那偷來的詞)。我認為這是一個非常強大的概念:持有測試所有數(shù)據(jù)的框架相當重要,這樣如果你改動了代碼,你可以返回并測試所有數(shù)據(jù)。擁有工程思維對在數(shù)據(jù)科學世界里高速進展至關重要。閱讀Code Complete和The Pragmatic Programmer會讓你比閱讀機器學習書籍走得更遠——盡管你也必須,當然,閱讀機器學習書籍。”
10 — Anna Smith,Spotify高級數(shù)據(jù)工程師,Rent the Runway前分析工程師
“如果某人在數(shù)據(jù)科學領域只是剛剛起步,最重要的事情莫過于理解向人們提問是無傷大雅的,我同時認為謙遜也相當重要。你還要確保你沒有被你正在做的事情束縛。你要總能做出改變并從頭再來。我認為在剛開始時,報廢代碼會相當困難,但最重要的事就是去做些什么。
即使你在數(shù)據(jù)科學領域并無工作,你依然可以用電腦停機時間探索數(shù)據(jù)集并提出一些關于這些數(shù)據(jù)的問題。在我的私人時間里,我會玩玩Reddit的數(shù)據(jù)。我會問我自己:“我可以用我有或沒有的工具探索Reddit的什么出什么結論呢?”這很棒,因為你一旦開始,你就能看到其他人如何處理相同的問題。只需用你的直覺開始閱讀別人的文章,就像“我可以在我的方法里用到這種技術。”緩緩起步,緩緩進步。我曾嘗試在起步時閱讀很多文章,但我認為直到你已對代碼和數(shù)據(jù)確實了解它如何工作、如何運轉,閱讀文章才是有幫助的。當人們把它擱在書里的時候,一切都很美好漂亮。但在現(xiàn)實生活中卻并非如此。
另外,我認為嘗試多種不同的事物也很重要。我以前也沒有想過我會在這個位置。我也沒法知道我五年后會在哪兒。但這或許正是我學習的方式:跨越不同的領域,嘗試一切來理解什么最適合我。”
11 — Andre Karpistsenko,Taxify數(shù)據(jù)科學主管, PlanetOS聯(lián)合創(chuàng)始人兼研究主管
“雖然這聽起來有些泛泛,但我相信你應該相信自己并遵循你的熱誠。我認為因媒體新聞和其中表露的期望而分心,選擇了一個你并不想去的方向確實很容易。所以說到數(shù)據(jù)科學,你應該將它看作你事業(yè)的起點。擁有這個背景將對任何事情有益。擁有編寫軟件和與統(tǒng)計知識能力將會讓你在你選擇的任何領域中做出更明智的決定。例如,我們可以得知一位運動員的表現(xiàn)是如何通過數(shù)據(jù)提高的,比如有人因為優(yōu)化和練習他們應該跳躍的角度成為跳遠的金牌得主。這都應歸功于體育中的數(shù)據(jù)驅動方法。
如果要我提出更具體的技術建議,那么這取決于接受建議的人的抱負。如果他想要創(chuàng)造新方法和工具,那么建議會非常不同。你需要堅持并在你的方向上繼續(xù)進步,你終會成功。但若你的興趣在很多情形下是多樣且靈活的,那么你會需要一個含有不同方法的大工具箱。
我認為我得到的最好的建議是由一位斯坦福教授給出的,我不久前參加了他的課程。他建議我要有T形的競爭力但在核心競爭力旁要有個少許的第二競爭力,這樣當你需要或想要時,你就有了生活的一條替代路線。另外,除了要有某一領域的垂直脈絡之外,他建議我要有足夠寬廣的背景知識,這樣你就能和很多不同的背景人在很多不同的情形下一起工作。因此,當你還在上大學時,建構T形競爭力附帶有另一個背景的小競爭力可能是你最該做的事。
或許最重要的事是圍在比你出色的人身邊并向他們學習。這是最好的建議。如果你在上大學,那正是看看人的能力是如此多樣的最好環(huán)境。如果你設法與最棒的人一起工作,那么你在任何事情上都會成功。”
12 — Amy Heineike,PrimerAI技術副總裁,Quid數(shù)學系前主任
“我認為也許他們需要從觀察自己,搞清楚他們真正關心什么開始。他們想要做什么?如今,數(shù)據(jù)科學是一個有點熱門的話題,因而我認為有很多人想著只要他們擁有“數(shù)據(jù)科學”的頭銜,那么魔力、幸福和金錢就會流向他們。所以我真的建議搞清楚你真正關心的是數(shù)據(jù)科學的那塊。這是你該問你自己的第一個問題。隨后你應該搞明白如何精通這塊。你還要開始考慮那些能夠發(fā)揮你這方面興趣的工作。
一個策略是深入到你需要知道的部分。我們的團隊中有一些人是自然語言博士,還有一些人是物理學博士,他們會使用很多不同的分析方法。所以你可以深入一個領域然后找到那些你能使用相同思路解決的重要或相似的問題。這是一個方法。另一種方法是隨便試些什么?,F(xiàn)在有很多數(shù)據(jù)集。如若你現(xiàn)在工作并且嘗試換工作,試著想一下在你當前的任務下這兒是否有些能用的數(shù)據(jù),從而能巧妙的解決問題。或者在家里你也能獲得開放的數(shù)據(jù)集。隨便逛逛看看能發(fā)現(xiàn)些什么然后開始嘗試玩玩。我認為這是個不錯的開始?,F(xiàn)在“數(shù)據(jù)科學”的旗號下有很多不同的角色,還有不少任務或許會讓你想到數(shù)據(jù)科學但它們還沒有頭銜,因為人們并不必要使用它們。好好考慮你到底想要什么。”
13 — Victor Hu,QBE Insurance數(shù)據(jù)科學主管,Next Big Sound前首席數(shù)據(jù)科學家
“首要的肯定是要能講好故事。在一天結束的時候,你要做的肯定是深入到一個系統(tǒng)、一個組織或一個產業(yè)如何工作的底層。但為了使它有用且能被人們所理解,你必須要講個故事。
能夠把你正在做的寫下來,能夠開口談論你的工作是相當關鍵的。另外值得一提的是,少點擔心你正在使用的算法。更多或更好的數(shù)據(jù)總能抵過一個更好的算法,所以若你能建立一種可得且可分析的大量優(yōu)質,干凈,有意義的數(shù)據(jù)的方法—那可真是再好不過了。”
14 — Kira Radinsky,eBay首席科學家兼數(shù)據(jù)科學主管,SalesPredict前技術總監(jiān)兼聯(lián)合創(chuàng)始人
“找到一個能對你感到興奮的問題。對我來說,每次我要開始嘗試些新東西,沒有帶著要解決的問題地學習真的很無聊。開始閱讀材料,并盡快著手用它來解決你的問題。你會開始看清問題,這會將你引向其它學習材料,不論它們是書、論文,還是人。所以花點時間與問題和人呆在一塊兒,你會感覺不錯的。
要深入理解基礎知識;要了解一些基本的數(shù)據(jù)結構和計算機科學;要了解你使用的工具的原理和它背后的數(shù)學知識,而不是僅僅會使用它們;要了解輸入和輸出在其中的實際情況,因為不這么干,你就不會知道什么時候去應用它。另外,這取決于你正在處理的問題。不同問題的要使用不同工具。你應要很好地知道每種工具適合做什么,從而知道(面對這個問題)你應使用怎樣的工具和技術。”
15 — Eric Jonas,UC Berkeley電氣工程和計算機科學博士后,Salesforce前首席預測科學家
“他們應該對概率論倒背如流。我現(xiàn)在正處于需要學習其它一切的階段,隨后我回頭再看概率論,這很好,因為它提供的這種精妙、深刻、豐富的基礎,可以投射出其它的一切。這兒有一本由E.T. Jaynes所著的書,叫Probability Theory: The Logic of Science,是我們的圣經。我們確實在某種意義上獲得了它。我喜歡概率生成方法的原因是你能有兩個正交軸——建模軸和推理軸,這基本上轉化為如何表述我的問題以及如何計算由根據(jù)已知數(shù)據(jù)假設的概率?從貝葉斯的角度看的好處是,你可以獨立地沿著這些軸進行工程設計。當然,它們不是完全獨立的,但它們近似獨立足以保證你這么處理沒有問題。
當我觀察如今被視為機器學習的重要組成:深度學習或者基于LASSO算法的線性回歸系統(tǒng)時,它們都沿著或這條或那條軸進行工程設計。它們都有點搖搖欲墜。作為一個工程師,使用這些基于LASSO算法的技術時,思考像“我稍稍改變這個參數(shù),到底意味著什么?”的問題會很困難。作為一個模型,線性回歸有著相當清晰的線性加權高斯模型架構。好吧,若我想讓事情變得有些不同呢?瞬間正則化最小二乘之類的方法就全然崩潰。推理技術甚至不接受你想要做的事情。”
16 — Jake Porwar,DataKind創(chuàng)始人兼執(zhí)行董事
“我認為一個強健的統(tǒng)計學背景是個先決條件,因為你需要知道你正在干些什么,并理解你構建的模型的能力。另外,我的統(tǒng)計項目還教會了不少倫理道德,即我們在DataKind考慮頗多的東西。你要經常思索你的工作將會如何被應用。你可以把算法應用于任何人,你可以使用會被警察攔截盤查的數(shù)據(jù)訓練出的模型應用于某人,但為何如此?這挺像構建任何新技術,你需要考慮風險和收益并仔細權衡,因為你要為你的創(chuàng)造負責。
不論你來自哪里,只要你理解用來下結論的工具,這是你能做的最棒的事。我們現(xiàn)在都是科學家,我不僅僅談論產品設計。我們都在對我們生活的這個世界下結論。這就是統(tǒng)計學—收集數(shù)據(jù)來證明一個假設或對世界運行的方式建模。如果你只是盲目地相信模型輸出的結果,那會是危險的,因為這是你對世界的解釋,因而會像它一樣,你的認識會是結果有缺陷的。
簡而言之,學統(tǒng)計學,謹慎行事。”
工作中的數(shù)據(jù)科學家展示了世界頂尖的數(shù)據(jù)科學家如何在紛繁繚亂的行業(yè)和應用中游刃有余地工作—每個人都應用自己的領域專業(yè)知識、統(tǒng)計學和計算機科學創(chuàng)造巨大的價值和影響力。
數(shù)據(jù)正以指數(shù)級暴增,那些能夠理解數(shù)據(jù)并從中抽取價值的人會比此前任何時候都更需要。若您渴望成為下一代數(shù)據(jù)科學家,那么這些來自深思熟慮的從業(yè)者們的關于數(shù)據(jù)和模型的真知灼見和樂趣所在將會相當有用。
博客原址:https://medium.com/@james_aka_yale/16-useful-advices-for-aspiring-data-scientists-804ce5611939