自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一位數(shù)據(jù)科學(xué)家的私房工具清單

大數(shù)據(jù)
近日北卡來羅納大學(xué)CTO,一位數(shù)據(jù)科學(xué)家Jefferson Heard分享了多年來收集沉淀的數(shù)據(jù)分析工具集。請(qǐng)看正文

作為一位萬人敬仰的數(shù)據(jù)科學(xué)家,不但需要培育一棵參天技能樹,私人武器庫(kù)里沒有一票玩得轉(zhuǎn)的大火力工具也是沒法在江湖中呼風(fēng)喚雨的。

[[182458]]

近日北卡來羅納大學(xué)CTO,一位數(shù)據(jù)科學(xué)家Jefferson Heard分享了多年來收集沉淀的數(shù)據(jù)分析工具集:

處理較大、較復(fù)雜的類excel數(shù)據(jù)

  • Pandas -處理tabular(類似Excel)數(shù)據(jù)的通用工具套件
  • SQLite – Tabular數(shù)據(jù)庫(kù)格式,能夠處理大規(guī)模數(shù)據(jù)集,同時(shí)也能在桌面環(huán)境運(yùn)行。
  • PostgreSQL – 企業(yè)級(jí)數(shù)據(jù)庫(kù)系統(tǒng)

處理空間、地理數(shù)據(jù):

  • PostGIS – Postgres的地理空間數(shù)據(jù)類型擴(kuò)展
  • Carto – 地理空間數(shù)據(jù)的商業(yè)數(shù)據(jù)挖掘工具
  • Mapbox – 商業(yè)地圖繪制工具,同時(shí)也是一個(gè)web地圖系統(tǒng)。
  • Leaflet – 基于網(wǎng)絡(luò)資源和本地?cái)?shù)據(jù)開發(fā)活動(dòng)web地圖的代碼庫(kù)
  • qGIS – 適用于幾乎所有地理空間和地圖繪制的圖形化GIS工具

處理非常規(guī)數(shù)據(jù):

  • RethinkDB – 處理實(shí)時(shí)數(shù)據(jù)流非常棒的數(shù)據(jù)庫(kù),正在從商業(yè)轉(zhuǎn)開源,小心使用。
  • MongoDB – 處理大規(guī)模非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的流行數(shù)據(jù)庫(kù),應(yīng)用于生產(chǎn)環(huán)境需要加小心。
  • CouchDB – 與MongoDB有些類似但不盡相同。
  • Cassandra – 圖譜和關(guān)系數(shù)據(jù)庫(kù)

為大規(guī)模數(shù)據(jù)集創(chuàng)建性能代碼:

  • Pandas – Python下一個(gè)開源數(shù)據(jù)分析的庫(kù),它提供的數(shù)據(jù)結(jié)構(gòu)DataFrame極大的簡(jiǎn)化了數(shù)據(jù)分析過程中一些繁瑣操作。
  • Apache Spark – 一個(gè)通用的高性能數(shù)據(jù)處理系統(tǒng)
  • SciPy and Numpy -可編寫腳本的基于C的數(shù)值算法,能在緊湊的,底層機(jī)器數(shù)據(jù)架構(gòu)上運(yùn)行。
  • Cython – 使用用C編譯器的Python編譯器,用來提升Python性能。
  • PyOpenCL – 在圖形顯卡上進(jìn)行數(shù)值計(jì)算和統(tǒng)計(jì)處理。

數(shù)據(jù)清洗工具

  • ODO – 在不同數(shù)據(jù)格式間進(jìn)行轉(zhuǎn)換的Python庫(kù)。
  • OpenRefine – 擁有圖形用戶界面的數(shù)據(jù)發(fā)現(xiàn)和清洗工具
  • Pandas – 數(shù)據(jù)科學(xué)任務(wù)中用來處理tabular數(shù)據(jù)的通用Python工具集
  • Scrapy – Python開發(fā)的一個(gè)快速,高層次的屏幕抓取和web抓取框架,用于抓取web站點(diǎn)并從頁(yè)面中提取結(jié)構(gòu)化的數(shù)據(jù)。
  • BeautifulSoup – 與Scrapy類似但不盡相同
  • Scrubadub – 去除個(gè)人身份信息
  • Arrow – 幫你輕松駕馭日期和時(shí)間戳的Python庫(kù)
  • DataCleaner – 剔除臟數(shù)據(jù)的Python庫(kù)
  • Dora – 與DataCleaner功能類似的Python庫(kù)。

數(shù)據(jù)可視化工具

  • Processing – 交互式開發(fā)交互式可視化內(nèi)容. 推薦讀本:Visualizing
  • DataD3 – 在web上開發(fā)可視化交互
  • C3 – 來自D3的圖表.
  • Bokeh – 與D3類似, 但基于Python.
  • matplotlib – 最早的Python數(shù)據(jù)可視化工具集。
  • Leaflet – 一個(gè)為開發(fā)移動(dòng)設(shè)備友好的互動(dòng)地圖的開源 JavaScript 庫(kù)。
  • MapBox -詳見地圖工具集。
  • qGIS – 詳見地圖工具集。
  • VTK – 在醫(yī)療、和物理研究領(lǐng)域常用的重型可視化工具包。

數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)工具

  • Weka – 一個(gè)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘工具包,這里有一本免費(fèi)可讀的參考書
  • ciKitLearn – 基于Python的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘工具套件。
  • Orange – 另一個(gè)基于Python的數(shù)據(jù)挖掘工具套件,同樣擁有圖形用戶界面。
  • TensorFlow – Google開源的多維度圖譜數(shù)學(xué)建模工具。

分享、協(xié)作以及知識(shí)管理工具

  • Django -基于Python的web框架
  • Django REST Framework – 為Django網(wǎng)站創(chuàng)建 REST APIs
  • IRODS – 企業(yè)級(jí)數(shù)據(jù)存儲(chǔ)和管理,包括元數(shù)據(jù)管理和基于規(guī)則的數(shù)據(jù)處理。
  • Cassandra (useful for metadata and relationship storage) – 一個(gè)存儲(chǔ)和查詢?cè)獢?shù)據(jù)經(jīng)常用到的開源分布式數(shù)據(jù)管理系統(tǒng)
  • GitLab -GitHub的開源替代品,可搭建私人服務(wù)器。
  • ReciPy –
  • Prov – Python implementation of the W3C provenance model
  • Kanren (部署基于元數(shù)據(jù)和數(shù)據(jù)源信息的業(yè)務(wù)邏輯非常有用) – 一個(gè)描述性Python邏輯編程系統(tǒng),非常適合科學(xué)元數(shù)據(jù)的查詢和基于規(guī)則的處理。
責(zé)任編輯:未麗燕 來源: IT經(jīng)理網(wǎng)
相關(guān)推薦

2020-05-11 13:46:34

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)大數(shù)據(jù)

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2018-05-22 09:07:54

數(shù)據(jù)科學(xué)語(yǔ)言職位

2019-01-23 09:36:02

數(shù)據(jù)科學(xué)項(xiàng)目數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)家

2016-08-02 17:00:12

Hadoop大數(shù)據(jù)系統(tǒng)

2012-12-06 15:36:55

CIO

2018-12-24 08:37:44

數(shù)據(jù)科學(xué)家數(shù)據(jù)模型

2012-12-26 10:51:20

數(shù)據(jù)科學(xué)家

2018-02-28 15:03:03

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析職業(yè)

2015-08-26 13:11:54

數(shù)據(jù)Python

2015-08-25 13:20:29

數(shù)據(jù)科學(xué)

2020-03-20 14:40:48

數(shù)據(jù)科學(xué)Python學(xué)習(xí)

2016-04-11 14:15:06

數(shù)據(jù)科學(xué)數(shù)據(jù)挖掘工具

2012-06-12 09:33:59

2018-10-16 14:37:34

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析數(shù)據(jù)科學(xué)

2020-08-10 06:18:24

應(yīng)用程序代碼開發(fā)

2016-08-17 09:50:27

大數(shù)據(jù)數(shù)據(jù)科學(xué)家

2017-12-29 16:39:22

數(shù)據(jù)科學(xué)家語(yǔ)言Python

2013-04-11 10:03:55

2018-12-06 13:08:30

數(shù)據(jù)科學(xué)家大數(shù)據(jù)數(shù)據(jù)科學(xué)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)