自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)倉庫項目從來不是技術(shù)項目

原創(chuàng) 精選
大數(shù)據(jù) 數(shù)據(jù)倉庫
對于數(shù)據(jù)倉庫項目而言,更需要的是一套策略,一套組合拳,不僅僅需要技術(shù)卓越、業(yè)務(wù)理解,還需要需求方、業(yè)務(wù)方在整體架構(gòu)和流程上的配合。

作者 | 張志豪

?數(shù)據(jù)倉庫是什么?

還是得先從定義開始:數(shù)據(jù)倉庫是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。這里的“支持決策”往往是面向分析的,需要能夠?qū)I(yè)務(wù)系統(tǒng)的數(shù)據(jù)進行大批量的、多維度的數(shù)據(jù)探索和分析,從而幫助最終的業(yè)務(wù)決策。此文是我對于數(shù)據(jù)倉庫項目的一點點感悟,不涉及具體的技術(shù)實現(xiàn)。

但它從來都不是(純)技術(shù)項目

數(shù)據(jù)倉庫項目上用到了很多技術(shù)組件,相信很多人都可以用報菜名的方式列舉出來,聽起來像是一個用了很多時髦組件、很性感的技術(shù)項目。但如果從權(quán)重上來看,我認為技術(shù)不是最重要的部分。對于數(shù)據(jù)倉庫項目而言,更需要的是一套策略,一套組合拳,不僅僅需要技術(shù)卓越、業(yè)務(wù)理解,還需要需求方、業(yè)務(wù)方在整體架構(gòu)和流程上的配合。

數(shù)據(jù)倉庫建設(shè)應(yīng)該包括這些主要流程:

  • 業(yè)務(wù)需求訪談、業(yè)務(wù)架構(gòu)設(shè)計;?
  • 技術(shù)選型、技術(shù)架構(gòu)設(shè)計;?
  • 客戶頂層戰(zhàn)略支持以及各個業(yè)務(wù)方、需求方的配合;?
  • 具體業(yè)務(wù)需求分析、數(shù)據(jù)建模;?
  • ETL導(dǎo)入數(shù)據(jù);?
  • 報表開發(fā)、數(shù)據(jù)服務(wù)、數(shù)據(jù)集市等。?

數(shù)據(jù)倉庫項目實施不是一開始就馬上接數(shù)據(jù)進來,而是需要經(jīng)過前期的幾輪業(yè)務(wù)訪談確定整體的業(yè)務(wù)需求并完成總體業(yè)務(wù)架構(gòu)設(shè)計,并根據(jù)業(yè)務(wù)架構(gòu)和具體的客戶技術(shù)狀況確定頂層的技術(shù)選型和技術(shù)架構(gòu)設(shè)計,在和數(shù)據(jù)倉庫涉及到的業(yè)務(wù)方、需求方、技術(shù)方等同步確定并獲得了各方支持之后才能準備開始真正準備接入數(shù)據(jù),也就是上述4~6這幾個步驟。 

而4~6是不斷地在進行的過程,而不是等到所有業(yè)務(wù)分析結(jié)束之后再進行ETL的部分。目的是快速接入、快速出結(jié)果、快速見效,如果遇到問題也可快速調(diào)整,更重要的目的是獲得客戶信任。如果時間拉得太久,客戶很有可能會因為看不到效果而喪失信心。這個邏輯也類似于故事卡中的“縱向拆分”。

“客戶的游艇在哪里?”姊妹篇:“客戶的金子在哪里?”

說起數(shù)據(jù)倉庫,用到比較多的比喻是“海平面下的冰山”和“沉睡在礦山的黃金”。如果我們只是把多個不同業(yè)務(wù)系統(tǒng)的礦石(數(shù)據(jù))搬過來、規(guī)整規(guī)整,是不能淘到金子的。如果耗費大量人力物力,而只是做了搬運工的工作,那整個項目就是“虧錢”的項目。因為它沒有產(chǎn)生業(yè)務(wù)價值(金子)。這個時候不禁自問:“客戶的金子在哪里”?

我理解業(yè)務(wù)價值主要分布在這些領(lǐng)域:

  • 支撐運營,輔助決策:各類活動、業(yè)務(wù)增長依賴于數(shù)據(jù)來做決策,這時核心指標計算、對齊各個業(yè)務(wù)口徑、多維度分析等十分重要,準確及時的結(jié)果能夠幫助客戶制定運營決策。?
  • 數(shù)據(jù)分析:對于用戶轉(zhuǎn)化、用戶行為分析等場景,數(shù)據(jù)探索、交互式分析、數(shù)據(jù)可視化等支持十分重要。?
  • 業(yè)務(wù)支撐:機器學(xué)習(xí)、風(fēng)控、數(shù)據(jù)服務(wù)、推薦系統(tǒng)等對于數(shù)據(jù)倉庫提出了更高的要求。?

也不局限于上述的幾個領(lǐng)域,我認為主要的判斷條件是數(shù)據(jù)倉庫的產(chǎn)出結(jié)果是否為業(yè)務(wù)系統(tǒng)提供了有價值、甚至是可以直接變現(xiàn)的支持作用。比如風(fēng)控和推薦系統(tǒng)就可以從防止了多少可能的財產(chǎn)損失和提升了多少訂單轉(zhuǎn)化率兩個維度來衡量“金子”的價值。

如果只是說我們這個月多了xxx張報表,新接入了xxx個業(yè)務(wù)系統(tǒng),進行了xxx次業(yè)務(wù)訪談聽起來好像很忙,但仔細想想其實并沒有產(chǎn)生太多的“金子”。也有人說可以通過衡量ROI(投資回報率(ROI)= 年利潤/投資總額)來量化“含金量”,在實際操作中“年利潤”可能還好計算,但是“投資總額”往往難以衡量,因為底層的數(shù)據(jù)、集群、運維往往是和其他業(yè)務(wù)數(shù)據(jù)共用的,且很多流程的數(shù)據(jù)流非常長,這大大增加了衡量“投資總額”的難度,以至于大多數(shù)據(jù)倉庫都很難精確衡量投資了多少。這也不意味著就可以完全不用思考ROI了,我認為即使沒有精確的數(shù)據(jù),也可以用預(yù)估的方式來粗略的判斷大致的ROI是多少,而不是悶頭往前走。

同時前期的步驟也非常重要,沒有前期的數(shù)據(jù)搬運、建模等步驟,這些“金子”就變成了無源之水,前期的數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)建模等步驟決定了能不能淘到高質(zhì)量的黃金。這里更像“木桶理論”,從業(yè)務(wù)分析、數(shù)據(jù)建模、數(shù)據(jù)加載、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換到指標計算、報表開發(fā)、數(shù)據(jù)分析、機器學(xué)習(xí)等等步驟如果有一塊短板都會導(dǎo)致其他過程的產(chǎn)出“含金量”下降,尤其是前期的步驟,如果前期步驟沒有做好,后續(xù)幾乎就是“garbage in, garbage out”了。?

責(zé)任編輯:趙寧寧 來源: Thoughtworks洞見
相關(guān)推薦

2013-10-29 13:28:13

數(shù)據(jù)

2023-11-16 15:12:30

Oracle銷售數(shù)據(jù)

2018-08-28 08:35:22

2009-04-27 09:09:45

2020-10-13 06:52:50

數(shù)據(jù)倉庫項目

2021-09-01 10:03:44

數(shù)據(jù)倉庫云數(shù)據(jù)倉庫數(shù)據(jù)庫

2015-04-02 15:50:47

數(shù)據(jù)倉庫數(shù)據(jù)挖掘

2013-01-31 09:26:56

2018-07-26 10:26:09

大數(shù)據(jù)傳統(tǒng)數(shù)據(jù)

2024-09-29 13:49:25

2020-01-03 09:40:13

大數(shù)據(jù)數(shù)據(jù)倉庫分層

2022-11-29 17:16:57

2018-07-24 09:28:18

存儲數(shù)據(jù)倉庫

2013-03-20 16:23:53

數(shù)據(jù)清洗

2016-04-05 10:59:59

Hadoop數(shù)據(jù)倉庫架構(gòu)設(shè)計

2009-01-20 10:54:40

Oracle淘寶網(wǎng)網(wǎng)格計算

2012-07-23 14:38:16

Exalytics

2017-08-17 15:52:38

企業(yè)數(shù)據(jù)倉庫

2023-07-02 14:11:28

數(shù)據(jù)倉庫大數(shù)據(jù)

2022-07-28 13:47:30

云計算數(shù)據(jù)倉庫
點贊
收藏

51CTO技術(shù)棧公眾號