自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<thead id="q8fqy"></thead>

<bdo id="q8fqy"><strong id="q8fqy"></strong></bdo>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

終于有人將數(shù)據(jù)中臺講清楚了，原來根本不算啥

作者：帆軟軟件 2021-01-29 10:50:04

大數(shù)據(jù) 中臺

數(shù)據(jù)中臺建設(shè)是一個宏大的工程，涉及整體規(guī)劃、組織搭建、中臺落地與運營等方方面面的工作，本節(jié)重點從物理形態(tài)上講述企業(yè)的數(shù)據(jù)中臺應(yīng)該如何搭建。

一、數(shù)據(jù)中臺功能架構(gòu)

數(shù)據(jù)中臺建設(shè)是一個宏大的工程，涉及整體規(guī)劃、組織搭建、中臺落地與運營等方方面面的工作，本節(jié)重點從物理形態(tài)上講述企業(yè)的數(shù)據(jù)中臺應(yīng)該如何搭建。一般來講，企業(yè)的數(shù)據(jù)中臺在物理形態(tài)上分為三個大層：工具平臺層、數(shù)據(jù)資產(chǎn)層和數(shù)據(jù)應(yīng)用層。

1. 工具平臺層

工具平臺層是數(shù)據(jù)中臺的載體，包含大數(shù)據(jù)處理的基礎(chǔ)能力技術(shù)，如集數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)計算、數(shù)據(jù)安全等于一體的大數(shù)據(jù)平臺;還包含建設(shè)數(shù)據(jù)中臺的一系列工具，如離線或?qū)崟r數(shù)據(jù)研發(fā)工具、數(shù)據(jù)聯(lián)通工具、標(biāo)簽計算工具、算法平臺工具、數(shù)據(jù)服務(wù)工具及自助分析工具。

以上工具集基本覆蓋了數(shù)據(jù)中臺的數(shù)據(jù)加工過程。

(1) 數(shù)據(jù)開發(fā)平臺

大數(shù)據(jù)的4V特征決定了數(shù)據(jù)處理是一個復(fù)雜的工程。建設(shè)數(shù)據(jù)中臺需要搭建建設(shè)數(shù)據(jù)中臺的基建工具，要滿足各種結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的采集、存儲與處理，要根據(jù)場景處理離線和實時數(shù)據(jù)的計算與存儲，要將一個個數(shù)據(jù)處理任務(wù)串聯(lián)起來以保障數(shù)據(jù)的運轉(zhuǎn)能賦能到業(yè)務(wù)端。

(2) 數(shù)據(jù)資產(chǎn)管理

數(shù)據(jù)中臺建設(shè)的成功與否，與數(shù)據(jù)資產(chǎn)是否管理有序有直接關(guān)系。前文提到，數(shù)據(jù)中臺是需要持續(xù)運營的。隨著時間的推移，數(shù)據(jù)不斷涌入數(shù)據(jù)中臺，如果沒有一套井然有序的數(shù)據(jù)資產(chǎn)平臺來進行管理，后果將不堪設(shè)想。

(3) 標(biāo)簽工廠

標(biāo)簽工廠又稱標(biāo)簽平臺，是數(shù)據(jù)中臺體系內(nèi)的明星工具類產(chǎn)品。標(biāo)簽建設(shè)是數(shù)據(jù)中臺走向數(shù)據(jù)業(yè)務(wù)化的關(guān)鍵步驟。因此，一個強大的標(biāo)簽工廠是數(shù)據(jù)中臺價值體現(xiàn)的有力保障。

標(biāo)簽工廠按功能一般分為兩部分：底層的標(biāo)簽計算引擎與上層的標(biāo)簽配置與管理門戶。標(biāo)簽計算引擎一般會采用MapReduce、Spark、Flink等大數(shù)據(jù)計算框架，而計算后的標(biāo)簽存儲可采用Elasticsearch或者HBase，這樣存儲的好處是便于快速檢索。

(4) ID-Mapping

ID-Mapping又稱ID打通工具，是數(shù)據(jù)中臺建設(shè)的可選項。可選不代表不重要，在一些多渠道、多觸點的新零售企業(yè)，離開了這個工具，數(shù)據(jù)質(zhì)量將大打折扣。

(5) 機器學(xué)習(xí)平臺

在整個機器學(xué)習(xí)的工作流中，模型訓(xùn)練的代碼開發(fā)只是其中一部分。除此之外，數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、特征提取、超參數(shù)的選擇與優(yōu)化、訓(xùn)練任務(wù)的監(jiān)控、模型的發(fā)布與集成、日志的回收等，都是流程中不可或缺的部分。

2. 數(shù)據(jù)資產(chǎn)層

數(shù)據(jù)資產(chǎn)層是數(shù)據(jù)中臺的核心層，它依托于工具平臺層，那么這一層又有什么內(nèi)容呢?答案是因企業(yè)的業(yè)務(wù)與行業(yè)而異，但總體來講，可以劃分為主題域模型區(qū)、標(biāo)簽?zāi)Ｐ蛥^(qū)和算法模型區(qū)。

(1) 主題域模型

主題域模型是指面向業(yè)務(wù)分析，將業(yè)務(wù)過程或維度進行抽象的集合。業(yè)務(wù)過程可以概括為一個個不可拆分的行為事件，如訂單、合同、營銷等。

為了保障整個體系的生命力，主題域即數(shù)據(jù)域需要抽象提煉，并且長期維護和更新，但是不輕易變動。在劃分?jǐn)?shù)據(jù)域時，既要涵蓋當(dāng)前所有業(yè)務(wù)的需求，又要保證新業(yè)務(wù)能夠無影響地被包含進已有的數(shù)據(jù)域中或者很容易擴展新的數(shù)據(jù)域。

(2) 標(biāo)簽?zāi)Ｐ?/p>

標(biāo)簽?zāi)Ｐ偷脑O(shè)計與主題域模型方法大同小異，同樣需要結(jié)合業(yè)務(wù)過程進行設(shè)計，需要充分理解業(yè)務(wù)過程。標(biāo)簽一般會涉及企業(yè)經(jīng)營過程中的實體對象，如會員、商品、門店、經(jīng)銷商等。這些主體一般來說都穿插在各個業(yè)務(wù)流程中，比如會員一般都穿插在關(guān)注、注冊、瀏覽、下單、評價、服務(wù)等環(huán)節(jié)。

(3) 算法模型

算法模型更加貼近業(yè)務(wù)場景。在設(shè)計算法模型的時候要反復(fù)推演算法模型使用的場景，包括模型的冷啟動等問題。整個模型搭建過程包含定場景、數(shù)據(jù)源準(zhǔn)備、特征工程、模型設(shè)計、模型訓(xùn)練、正式上線、參數(shù)調(diào)整7個環(huán)節(jié)。

3. 數(shù)據(jù)應(yīng)用層

數(shù)據(jù)應(yīng)用層嚴(yán)格來說不屬于數(shù)據(jù)中臺的范疇，但數(shù)據(jù)中臺的使命就是為業(yè)務(wù)賦能，幾乎所有企業(yè)在建設(shè)數(shù)據(jù)中臺的同時都已規(guī)劃好數(shù)據(jù)應(yīng)用。數(shù)據(jù)應(yīng)用可按數(shù)據(jù)使用場景來劃分為以下多個使用領(lǐng)域。

(1) 分析與決策應(yīng)用

分析與決策應(yīng)用主要面向企業(yè)的領(lǐng)導(dǎo)、運營人員等角色，基于企業(yè)的業(yè)務(wù)背景和數(shù)據(jù)分析訴求，針對客戶拉新、老客運營、銷售能力評估等分析場景，通過主題域模型、標(biāo)簽?zāi)Ｐ秃退惴Ｐ停瑸槠髽I(yè)提供可視化分析專題。

用戶在分析與決策應(yīng)用中快速獲取企業(yè)現(xiàn)狀和問題，同時可對數(shù)據(jù)進行鉆取、聯(lián)動分析等，深度分析企業(yè)問題及其原因，從而輔助企業(yè)進行管理和決策，實現(xiàn)精準(zhǔn)管理和智能決策。

(2) 標(biāo)簽應(yīng)用

標(biāo)簽旨在挖掘?qū)嶓w對象(如客戶、商品等)的特征，將數(shù)據(jù)轉(zhuǎn)化成真正對業(yè)務(wù)有價值的產(chǎn)物并對外提供標(biāo)簽數(shù)據(jù)服務(wù)，多應(yīng)用于客戶圈選、精準(zhǔn)營銷和個性化推薦等場景，從而實現(xiàn)資產(chǎn)變現(xiàn)，不斷擴大資產(chǎn)價值。

標(biāo)簽體系的設(shè)計立足于標(biāo)簽使用場景，不同使用場景對標(biāo)簽需求是不同的，譬如在客戶個性化推薦場景下，需要客戶性別、近期關(guān)注商品類型、消費能力和消費習(xí)慣等標(biāo)簽。

(3) 智能應(yīng)用

智能應(yīng)用是數(shù)智化的一個典型外在表現(xiàn)。比如在營銷領(lǐng)域，不僅可實現(xiàn)千人千面的用戶個性化推薦，如猜你喜歡、加購?fù)扑]等，還可借助智能營銷工具進行高精準(zhǔn)度的用戶觸達，推動首購轉(zhuǎn)化、二購促進、流失挽留等。

二、數(shù)據(jù)中臺技術(shù)架構(gòu)

隨著大數(shù)據(jù)與人工智能技術(shù)的不斷迭代以及商業(yè)大數(shù)據(jù)工具產(chǎn)品的推出，數(shù)據(jù)中臺的架構(gòu)設(shè)計大可不必從零開始，可以采購一站式的研發(fā)平臺產(chǎn)品，或者基于一些開源產(chǎn)品進行組裝。企業(yè)可根據(jù)自身情況進行權(quán)衡考慮，但無論采用哪種方案，數(shù)據(jù)中臺的架構(gòu)設(shè)計以滿足當(dāng)前數(shù)據(jù)處理的全場景為基準(zhǔn)。

以開源技術(shù)為例，數(shù)據(jù)中臺的技術(shù)架構(gòu)如圖所示，總體來看一般包含以下幾種功能：數(shù)據(jù)采集、數(shù)據(jù)計算、數(shù)據(jù)存儲和數(shù)據(jù)服務(wù);在研發(fā)、運維和公共服務(wù)方面包括離線開發(fā)、實時開發(fā)、數(shù)據(jù)資產(chǎn)、任務(wù)調(diào)度、數(shù)據(jù)安全、集群管理。

1. 數(shù)據(jù)采集層

按數(shù)據(jù)的實時性，數(shù)據(jù)采集分為離線采集和實時采集。離線采集使用DataX和Sqoop，實時采集使用Kafka Connect、Flume、Kafka。

在離線數(shù)據(jù)采集中，建議使用DataX和Sqoop相結(jié)合。DataX適合用在數(shù)據(jù)量較小且采用非關(guān)系型數(shù)據(jù)庫的場景，部署方式很簡單。Sqoop適合用在數(shù)據(jù)量較大且采用關(guān)系型數(shù)據(jù)庫的場景。

2. 數(shù)據(jù)計算層

數(shù)據(jù)計算采用YARN作為各種計算框架部署的執(zhí)行調(diào)度平臺，計算框架有MapReduce、Spark及Spark SQL、Flink、Spark MLlib等。

3. 數(shù)據(jù)存儲層

數(shù)據(jù)存儲層所有的存儲引擎都基于Hadoop的HDFS分布式存儲，從而達到數(shù)據(jù)多份冗余和充分利用物理層多磁盤的I/O性能。在HDFS上分別搭建Hive、HBase作為存儲數(shù)據(jù)庫，在這兩個數(shù)據(jù)庫的基礎(chǔ)上再搭建Impala、Phoenix、Presto引擎。

4. 數(shù)據(jù)服務(wù)層

數(shù)據(jù)服務(wù)層采用的技術(shù)與業(yè)務(wù)應(yīng)用類似，主要基于開源Spring Cloud、Spring Boot等構(gòu)建，使用統(tǒng)一的服務(wù)網(wǎng)關(guān)。

責(zé)任編輯：趙寧寧來源：今日頭條

數(shù)據(jù)中臺數(shù)據(jù)數(shù)據(jù)管理

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<s id="5yfez"><nav id="5yfez"></nav></s>