「數(shù)倉面試」如何確定主題域?
大家好,我是一哥,前幾天跟一個朋友聊了一些數(shù)據(jù)中臺建設的內(nèi)容,針對數(shù)據(jù)倉庫中主題域如何劃分這個話題聊了很多。其實數(shù)據(jù)倉庫建設的理論大家已經(jīng)都知道了不少,也看過不少書,那么在實際建設數(shù)據(jù)倉庫中,我們還是會遇到各種問題。
前段時間招人,面試了幾個簡歷上都寫了有3年以上數(shù)倉開發(fā)的,當我問他“如何確定主題域?”,他卻說“我來公司的時候已經(jīng)都搞好了……”,再問他“如果進入一個新領域,從0到1搭建數(shù)倉,怎么確定主題域呢?” 他就蒙了……
今天一哥帶你一起聊聊主題域如何劃分?
01什么是主題
主題是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)進行綜合、歸類和分析利用的一個抽象概念,每一個主題基本對應一個宏觀的分析領域。在邏輯意義上,它是對應企業(yè)中某一宏觀分析領域所涉及的分析對象。
簡單說,一個主題對應一個分析對象。分析對象就是在決策、分析時重點關注的東西,這個東西其實是非常主觀的,在不同的企業(yè),或者企業(yè)的不同發(fā)展時期,所關注的點會不一樣,從而影響有些主題可能存在或者不存在。
數(shù)據(jù)倉庫是面向主題的應用,主要功能是將數(shù)據(jù)綜合、歸類并進行分析利用。數(shù)據(jù)倉庫模型設計除橫向的分層外,通常還需要根據(jù)業(yè)務情況縱向劃分主題域。主題域是業(yè)務對象高度概括的概念層次歸類,目的是便于數(shù)據(jù)的管理和應用。
02如何劃分主題
劃分主題域方法
在業(yè)務調研之后,可以進行主題域的劃分。劃分主題域,需要分析各個業(yè)務模塊中有哪些業(yè)務活動。通常我們按照以下方法劃分主題域,可以按照用戶企業(yè)的部門劃分,也可以按照業(yè)務過程或者業(yè)務板塊中的功能模塊劃分。
按照系統(tǒng)劃分:業(yè)務系統(tǒng)有幾種,就劃分為幾類
按業(yè)務過程劃分:比如業(yè)務系統(tǒng)中有商品、交易、物流等
按部門規(guī)劃:比如公司內(nèi)的生產(chǎn)、供應鏈、研發(fā)、銷售等
目前有些成熟的行業(yè),比如電信、銀行,他們也是最早用數(shù)據(jù)倉庫的行業(yè),已經(jīng)形成了一些規(guī)范,可以直接按照規(guī)范來就行了。其中IBM金融數(shù)據(jù)模型數(shù)據(jù)存儲模型FSDM,是金融行業(yè)應用極為廣泛的數(shù)據(jù)模型,可以作為我們構建企業(yè)級數(shù)據(jù)倉庫主題域模型劃分的重要依據(jù)。
對于新興的一些行業(yè),或者業(yè)內(nèi)沒有形成標準的話,那么就可以參照上面的幾類方法,進行分類,先從邊界清晰的系統(tǒng)入手進行建設,形成經(jīng)驗后逐步推到各個系統(tǒng)中。
個人比較推薦通過業(yè)務系統(tǒng)來進行一級主題域劃分,這樣邊界就會很明顯,數(shù)據(jù)倉庫開發(fā)過程中不會因為模型主題的歸屬“扯皮”,然后根據(jù)各個系統(tǒng)中的業(yè)務過程劃分二級主題域目前我參與過的兩個數(shù)據(jù)倉庫建設項目也都是這樣搞的。
主題域的核心
為保障整個體系的生命力,主題域需要抽象提煉,并長期維護更新,但不輕易變動。劃分數(shù)據(jù)域時,需滿足以下兩點:
- 能涵蓋當前所有的業(yè)務需求。
- 能在新業(yè)務進入時,無影響地被包含進已有的主題域中和擴展新的主題域。
一次能劃分好主題域嗎
首先,主題域是無法一次劃分完整的,一般是一次先建立幾個明確的主題,在大多數(shù)數(shù)據(jù)倉庫的設計過程中都有一個主題域的選擇過程。業(yè)務是一直發(fā)展的,因此設計之初不要想著一次把所有主題全部劃分完整。我們可以遵循上面說的劃分主題域的兩個要點,后續(xù)采用迭代的方式補充。
03總結
數(shù)據(jù)倉庫建設是一套方法論,但并不是一個“定理”,可能不會有完全符合你實際公司業(yè)務的“公式”,我們需要學習這些方法論,然后結合自己公司實際的業(yè)務場景來實現(xiàn),只要能有序的把數(shù)據(jù)管控起來,同時又能高效的幫助數(shù)據(jù)分析,實現(xiàn)業(yè)務價值就好了,不必一味的追求“行業(yè)標準”。
本文轉載自微信公眾號「數(shù)據(jù)社」,可以通過以下二維碼關注。轉載本文請聯(lián)系數(shù)據(jù)社公眾號。