11個(gè)開(kāi)源免費(fèi)的數(shù)據(jù)分析與可視化工具
參與大數(shù)據(jù)、人工智能相關(guān)的項(xiàng)目的技術(shù)人員,掌握一些數(shù)據(jù)工具對(duì)項(xiàng)目建設(shè)至關(guān)重要。本文推薦一些優(yōu)秀的開(kāi)源數(shù)據(jù)分析與可視化工具,可以在從數(shù)據(jù)清洗到可視化等過(guò)程提高工作效率。
1.Apache Superset
https://github.com/apache/superset
Apache Superset是一個(gè)開(kāi)源數(shù)據(jù)挖掘以及數(shù)據(jù)可視化平臺(tái),用戶不需要編程知識(shí)就可以創(chuàng)建交互式儀表盤(pán)。平臺(tái)支持各種數(shù)據(jù)源,提供豐富的可視化組件,并允許自定義儀和共享表盤(pán)。
平臺(tái)在功能性方面,它集成了各種數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù),并提供了一個(gè)強(qiáng)大的SQL編輯器。在安全性方面,平臺(tái)可通過(guò)基于角色的訪問(wèn)控制和身份驗(yàn)證。在可擴(kuò)展性方面,它允許添加自定義功能,并且也有一個(gè)大型的、活躍的開(kāi)源社區(qū)。
2.Metabase
https://github.com/metabase/metabase
Metabase是一個(gè)開(kāi)源的商業(yè)智能工具,具有友好的用戶界面、強(qiáng)大的數(shù)據(jù)可視化功能和交互式儀表板。它支持與各種數(shù)據(jù)源集成,支持實(shí)時(shí)查詢,并提供自動(dòng)報(bào)告。
Metabase還提供數(shù)據(jù)探索和發(fā)現(xiàn)工具,通過(guò)基于角色的訪問(wèn)控制以確保安全。它可以私有化部署,為項(xiàng)目提供了較為靈活的方案。
3.OpenRefine
https://github.com/OpenRefine/OpenRefine
OpenRefine是一個(gè)基于Java的數(shù)據(jù)管理和分析工具。支持用戶使用Web端實(shí)現(xiàn)數(shù)據(jù)加工、可視化和功能擴(kuò)展。
OpenRefine的主要功能包括挖掘、集群、協(xié)調(diào)、無(wú)限撤銷/重做、隱私和Wiki。
4.Insights
https://github.com/mariusandra/insights
Insights是一個(gè)用于可視化地挖掘PostgreSQL數(shù)據(jù)庫(kù)的工具,在圖形的生成具有較強(qiáng)優(yōu)勢(shì)。
它支持PostgreSQL連接,自動(dòng)檢測(cè)發(fā)現(xiàn)數(shù)據(jù)庫(kù),允許連接到多個(gè)數(shù)據(jù)庫(kù),并允許模式編輯和添加自定義SQL字段。
它還提供數(shù)據(jù)挖掘、過(guò)濾器、基于時(shí)間的圖形、鍵盤(pán)導(dǎo)航、保存的視圖和固定的字段等功能。
安裝如下:
npm install -g insightsinsights initinsights startbr
br
5.Retentioneering
https://github.com/retentioneering/retentioneering-tools
Retentioneering是一個(gè)Python庫(kù),它主要用于分析點(diǎn)擊流、用戶軌跡和事件日志變等,并產(chǎn)生比漏斗分析,以便更廣泛和更深入理解用戶行為。
使用Retentioneering來(lái)探索用戶行為,細(xì)分用戶,并形成關(guān)于是什么驅(qū)使用戶采取期望的行動(dòng)或遠(yuǎn)離產(chǎn)品的假設(shè)。
Retentioneering使用點(diǎn)擊流數(shù)據(jù)來(lái)構(gòu)建行為細(xì)分,突出顯示影響您的轉(zhuǎn)化率,保留和收入的用戶行為中的事件和模式。Retentioneering庫(kù)是專門(mén)為數(shù)據(jù)分析師、營(yíng)銷分析師、產(chǎn)品所有者、經(jīng)理以及任何負(fù)責(zé)提高產(chǎn)品質(zhì)量的人創(chuàng)建的。
Retentioneering作為Cyberter環(huán)境的組成部分,它擴(kuò)展了pandas、NetworkX、scikit-learn庫(kù)的功能,以更有效地處理順序事件數(shù)據(jù)。Retentioneering優(yōu)化工具是交互式的,專為分析研究而量身定制,因此,非Python專家也可使用它。只需幾行代碼,就可以處理數(shù)據(jù),探索用戶行為地圖,并進(jìn)行可視化。
6.FlyFish
飛魚(yú)(FlyFish)是一個(gè)數(shù)據(jù)可視化編碼平臺(tái)。通過(guò)簡(jiǎn)易的方式快速創(chuàng)建數(shù)據(jù)模型,通過(guò)拖拉拽的形式,快速生成一套數(shù)據(jù)可視化解決方案。
功能包括:
- 項(xiàng)目管理:項(xiàng)目用于代表具體的業(yè)務(wù)需求場(chǎng)景,是多個(gè)應(yīng)用、組件的集合。
- 應(yīng)用開(kāi)發(fā):支持開(kāi)發(fā)大屏應(yīng)用,可開(kāi)發(fā)單頁(yè)面或是多頁(yè)面路由的大屏應(yīng)用。
- 組件開(kāi)發(fā):組件為最小粒度的項(xiàng)目基礎(chǔ),通過(guò)創(chuàng)建和開(kāi)發(fā)組件拼湊出最終的可視化大屏展示。
- 模板庫(kù):可將開(kāi)發(fā)完成的應(yīng)用/組件分別上傳到對(duì)應(yīng)的模板庫(kù)中,可在已有模板的基礎(chǔ)上快速創(chuàng)建新的項(xiàng)目。
- 數(shù)據(jù)源管理:可接入 MySQL、Http 等多個(gè)數(shù)據(jù)庫(kù)數(shù)據(jù)生成對(duì)應(yīng)數(shù)據(jù)源,供創(chuàng)建項(xiàng)目時(shí)組件對(duì)數(shù)據(jù)進(jìn)行調(diào)用。
- 數(shù)據(jù)查詢:支持根據(jù)數(shù)據(jù)表進(jìn)行 SQL 查詢,精準(zhǔn)定位數(shù)據(jù)源中具體數(shù)據(jù)并封裝保存,也可將查詢到的數(shù)據(jù)重新組合,供組件直接調(diào)用。
7.AKShare
https://github.com/akfamily/akshare
AKShare是一個(gè)開(kāi)源財(cái)經(jīng)數(shù)據(jù)Python接口庫(kù),旨在簡(jiǎn)化獲取財(cái)務(wù)數(shù)據(jù)的過(guò)程。它需要Python(64 bit)3.8或更高版本。
8.Alluxio
https://github.com/Alluxio/alluxio
Alluxio,最初稱為T(mén)achyon,是一個(gè)虛擬分布式存儲(chǔ)系統(tǒng),將計(jì)算應(yīng)用程序連接到各種存儲(chǔ)系統(tǒng)。它起源于加州大學(xué)伯克利分校的一個(gè)研究項(xiàng)目,現(xiàn)在被許多領(lǐng)先的公司用來(lái)管理PB級(jí)的數(shù)據(jù),最大支持超過(guò)3000個(gè)部署節(jié)點(diǎn)。
9.Flyte
https://github.com/flyteorg/flyte
Flyte是一個(gè)開(kāi)源數(shù)據(jù)編排器,有助于構(gòu)建生產(chǎn)級(jí)數(shù)據(jù)和ML管道。它是為可擴(kuò)展性和可重復(fù)性而構(gòu)建的,利用Kubernetes作為其底層平臺(tái)。通過(guò)Flyte,用戶團(tuán)隊(duì)可以使用Python SDK構(gòu)建管道,并將其無(wú)縫部署在云和本地環(huán)境中,從而實(shí)現(xiàn)分布式處理和高效的資源利用。
該平臺(tái)提供了一個(gè)強(qiáng)大的類型引擎,支持用Python或任何其他語(yǔ)言編寫(xiě)代碼。此外,F(xiàn)lyte提供了在本地或遠(yuǎn)程集群上執(zhí)行模型的能力,提供了高度的可擴(kuò)展性和易于部署性。
10.Danfo
https://github.com/javascriptdata/danfojs
Danfo是一個(gè)受Pandas庫(kù)啟發(fā)的JavaScript包,旨在輕松直觀地處理關(guān)系數(shù)據(jù)或標(biāo)記數(shù)據(jù)。它支持TensorFlow.js ,處理丟失的數(shù)據(jù),允許從DataFrame插入/刪除列的大小可變性,并提供對(duì)象的自動(dòng)和顯式對(duì)齊。
特征:
- 支持快速處理Tensorflow.js張量
- 易于處理丟失數(shù)據(jù)(表示為NaN)
- 大小可變性:可以從DataFrame插入/刪除列
- 自動(dòng)和顯式對(duì)齊
- 強(qiáng)大、靈活的分組功能
- 從數(shù)組、JSON、列表或?qū)ο?、張量輕松轉(zhuǎn)換為DataFrame對(duì)象
- 基于標(biāo)簽的智能切片、花式索引和查詢
- 直觀的合并和連接數(shù)據(jù)集
- 用于從平面文件(CSV、Json、Excel)加載數(shù)據(jù)的強(qiáng)大IO工具
- 用于交互式繪圖的強(qiáng)大、靈活和直觀的API
- 特定于時(shí)間序列的功能:日期范圍生成以及日期和時(shí)間屬性
- 強(qiáng)大的數(shù)據(jù)預(yù)處理功能,如OneHotEncoders、LabelEncoders、StandardScaler和MinMaxScaler
11.Elementary
https://github.com/elementary-data/elementary
Elementary是一個(gè)專為數(shù)據(jù)和分析工程師設(shè)計(jì)的首選dbt原生數(shù)據(jù)可觀察性解決方案。可獲得分鐘級(jí)的即時(shí)可視化,能夠快速檢測(cè)數(shù)據(jù)問(wèn)題,發(fā)送可操作的警報(bào),并全面了解可能產(chǎn)生的影響和根本原因。Elementary重點(diǎn)提供了兩個(gè)產(chǎn)品:一個(gè)創(chuàng)新的開(kāi)源軟件包和一個(gè)上級(jí)管理平臺(tái)。
主要特征:
- 異常檢測(cè)測(cè)試,收集數(shù)據(jù)質(zhì)量指標(biāo)并檢測(cè)異常作為本機(jī)dbt測(cè)試。
- 自動(dòng)化監(jiān)視器,開(kāi)箱即用的云監(jiān)視器,用于檢測(cè)新鮮度、卷和模式問(wèn)題。
- 端到端數(shù)據(jù)沿襲,獲取包含最新測(cè)試結(jié)果的豐富數(shù)據(jù),以分析數(shù)據(jù)問(wèn)題的影響和根本原因。Elementary Cloud提供列級(jí)血統(tǒng)和BI集成。
- 數(shù)據(jù)質(zhì)量?jī)x表板,一個(gè)單一的界面,用于所有數(shù)據(jù)監(jiān)控和測(cè)試結(jié)果。
- 模型性能-監(jiān)視模型和作業(yè)隨時(shí)間的運(yùn)行結(jié)果和性能。
- 基本配置在dbt代碼中進(jìn)行管理。
- 警報(bào),發(fā)送可操作的警報(bào),包括自定義頻道和所有者標(biāo)簽。
- 數(shù)據(jù)目錄,瀏覽數(shù)據(jù)集信息-描述、列、數(shù)據(jù)集健康狀況等。
- dbt工件上傳,保存元數(shù)據(jù)和運(yùn)行結(jié)果的一部分,您的dbt運(yùn)行。