数据中台交付专家告诉你,数据架构的分层怎样更加合理?
作者:柯根
從整體上看,數(shù)據(jù)中臺體系架構可分為:數(shù)據(jù)采集層、數(shù)據(jù)計算層、數(shù)據(jù)服務層三大層次。通過這三大層次對上層數(shù)據(jù)應用提供數(shù)據(jù)支撐。
數(shù)據(jù)采集層
對于企業(yè)來說,每時每刻都在產(chǎn)生海量的數(shù)據(jù),數(shù)據(jù)采集作為數(shù)據(jù)體系第一環(huán)尤為重要。
因此在數(shù)據(jù)采集層需要建立了一套標準的數(shù)據(jù)采集體系方案,并致力全面、高性能、規(guī)范地完成海量數(shù)據(jù)的采集,將其傳輸?shù)酱髷?shù)據(jù)平臺。
互聯(lián)網(wǎng)日志采集體系包括兩大體系:Web端日志采集技術方案;APP端日志采集技術方案。
在采集技術之上,企業(yè)可以用面向各個場景的埋點規(guī)范,來滿足日志數(shù)據(jù)打通等多種業(yè)務場景。同時,還可以建立了一套高性能、高可靠性的數(shù)據(jù)傳輸體系完成數(shù)據(jù)從生產(chǎn)業(yè)務端到大數(shù)據(jù)系統(tǒng)的傳輸;在傳輸方面,采集技術可既包括數(shù)據(jù)庫的增量數(shù)據(jù)傳輸,也包括日志數(shù)據(jù)的傳輸;既需要能支持實時流式計算、也能實時各種時間窗口的批量計算。另一方面,也通過數(shù)據(jù)同步工具直連異構數(shù)據(jù)庫(備庫)來抽取各種時間窗口的數(shù)據(jù)。
下圖展示數(shù)據(jù)采集層在數(shù)據(jù)分層中的位置:
數(shù)據(jù)計算層
從采集系統(tǒng)中收集了大量的原始數(shù)據(jù)后,數(shù)據(jù)只有被整合、計算才能被用于洞察商業(yè)規(guī)律、挖掘潛在信息,實現(xiàn)大數(shù)據(jù)價值,達到賦能商業(yè)、創(chuàng)造商業(yè)的目的。從采集系統(tǒng)中收集到的大量原始數(shù)據(jù),將進入數(shù)據(jù)計算層中被進一步整合與計算。
面對海量的數(shù)據(jù)和復雜的計算,數(shù)據(jù)計算層包括兩大體系:數(shù)據(jù)存儲及計算云平臺和數(shù)據(jù)整合及管理體系。
- 數(shù)據(jù)存儲及計算云平臺
例如,MaxCompute是阿里巴巴自主研發(fā)的離線大數(shù)據(jù)平臺,其豐富的功能和強大的存儲及計算能力使得企業(yè)的大數(shù)據(jù)有了強大的存儲和計算引擎;StreamCompute是阿里巴巴自主研發(fā)的流式大數(shù)據(jù)平臺,在內(nèi)部較好地支持了企業(yè)流式計算需求。
- 數(shù)據(jù)整合及管理體系
“OneModel”是數(shù)據(jù)整合及管理的方法體系和工具,大數(shù)據(jù)工程師在這一體系下,構建統(tǒng)一、規(guī)范、可共享的全域數(shù)據(jù)體系,避免數(shù)據(jù)的冗余和重復建設,規(guī)避數(shù)據(jù)煙囪和不一致,充分發(fā)揮在大數(shù)據(jù)海量、多樣性方面的獨特優(yōu)勢。借助這一統(tǒng)一化數(shù)據(jù)整合及管理的方法體系,構建企業(yè)數(shù)據(jù)公共層,并可以幫助相似大數(shù)據(jù)項目快速落地實現(xiàn)。
數(shù)據(jù)中臺數(shù)據(jù)加工鏈路也是遵循業(yè)界的分層理念:包括操作數(shù)據(jù)層(ODS,Operational Data Store)、明細數(shù)據(jù)層(DWD,Data Warehouse Detail)、匯總數(shù)據(jù)層(DWS, Data Warehouse Summary)和應用數(shù)據(jù)層(ADS,Application Data Store)。通過數(shù)據(jù)中臺不同層次之間的加工過程實現(xiàn)從數(shù)據(jù)資產(chǎn)向信息資產(chǎn)的轉化,并且對整個過程進行有效的元數(shù)據(jù)管理及數(shù)據(jù)質量處理。
下圖展示數(shù)據(jù)公共層(ODS+DWD+DWS)與數(shù)據(jù)應用層(ADS)在數(shù)據(jù)分層中的位置:
圖:數(shù)據(jù)公共層與數(shù)據(jù)應用層關系
(1)統(tǒng)一數(shù)據(jù)基礎層
我們通過各種方式采集到的豐富數(shù)據(jù),在清洗、結構化后進入統(tǒng)一的ODS數(shù)據(jù)基礎層。
其主要功能包括:
-同步:結構化數(shù)據(jù)增量或全量同步到數(shù)據(jù)中臺
-結構化:非結構化(日志)結構化處理并存儲到數(shù)據(jù)中臺
累積歷史、清洗:根據(jù)數(shù)據(jù)業(yè)務需求及稽核和審計要求保存歷史數(shù)據(jù)、數(shù)據(jù)清洗
在權責方面,所有數(shù)據(jù)應該在源頭統(tǒng)一,統(tǒng)一所有的數(shù)據(jù)基礎層,并由一個團隊負責和管控,其他團隊無權復制數(shù)據(jù)基礎層的數(shù)據(jù)。
(2)數(shù)據(jù)中間層
我們進行數(shù)據(jù)建模研發(fā),并處理不因業(yè)務特別是組織架構變動而輕易轉移的數(shù)據(jù)中間層。包括DWD明細數(shù)據(jù)中間層和DWS匯總數(shù)據(jù)中間層。
其主要功能包括:
-組合相關和相似數(shù)據(jù): 采用明細寬表,復用關聯(lián)計算,減少數(shù)據(jù)掃描。
-公共指標統(tǒng)一加工:基于OneData體系構建命名規(guī)范、口徑一致和算法統(tǒng)一的統(tǒng)計指標,為上層數(shù)據(jù)產(chǎn)-品、應用和服務提供公共指標;建立邏輯匯總寬表;
-建立一致性維度:建立一致數(shù)據(jù)分析維度表,降低數(shù)據(jù)計算口徑、算法不統(tǒng)一的風險。
在權責方面,面向業(yè)務提供服務之前,由統(tǒng)一的團隊負責從業(yè)務中抽象出源于業(yè)務而又不同于業(yè)務的數(shù)據(jù)域,再主導統(tǒng)一建設數(shù)據(jù)中間層,包括側重明細數(shù)據(jù)預JOIN等處理的明細中間層、側重面向應用可復用維度和指標的匯總數(shù)據(jù)中間層。特別是要由唯一團隊負責將核心業(yè)務數(shù)據(jù)統(tǒng)一加入數(shù)據(jù)中間層。允許部分業(yè)務數(shù)據(jù)有獨立的數(shù)據(jù)團隊按照統(tǒng)一的OneModel體系方法論建設數(shù)據(jù)體系,ODS數(shù)據(jù)基礎層和DWD+DWS數(shù)據(jù)中間層因其統(tǒng)一性和可復用性,被稱為數(shù)據(jù)公共層。
(3)數(shù)據(jù)應用層
在面向應用提供服務時,業(yè)務團隊或深入業(yè)務線的數(shù)據(jù)團隊有極大的自由度,只要依賴數(shù)據(jù)公共層,即可自由的建設ADS數(shù)據(jù)應用層。
其主要功能包括:
-個性化指標加工:不公用性;復雜性(指數(shù)型、比值型、排名型指標)
-基于應用的數(shù)據(jù)組裝:大寬表集市、橫表轉縱表、趨勢指標串
數(shù)據(jù)服務層
當數(shù)據(jù)已被整合和計算好之后,需要提供給產(chǎn)品和應用進行數(shù)據(jù)消費,為了更好的性能和體驗,需要構建數(shù)據(jù)服務層,通過接口服務化方式對外提供數(shù)據(jù)服務。針對不同的需求,數(shù)據(jù)服務層的數(shù)據(jù)源架構在多種數(shù)據(jù)庫之上,如Mysql和Hbase等。
數(shù)據(jù)服務可以使應用對底層數(shù)據(jù)存儲透明,將海量數(shù)據(jù)方便高效地開放給集團內(nèi)部各應用使用。如何在性能、穩(wěn)定性、擴展性等多方面更好地服務用戶;如何滿足應用各種復雜的數(shù)據(jù)服務需求;如何保證數(shù)據(jù)服務接口的高可用。隨著業(yè)務的發(fā)展,需求越來越復雜,因此數(shù)據(jù)服務也在不斷地前進。
不管是數(shù)據(jù)公共層還是應用層,最終都需要面向業(yè)務提供服務。為了讓業(yè)務部門找數(shù)據(jù)、看數(shù)據(jù)、用數(shù)據(jù)更加方便,我們將OpenAPI升級為能緩解業(yè)務變化對數(shù)據(jù)模型沖擊的包括方法論+產(chǎn)品在內(nèi)的OneService體系,使其在提供統(tǒng)一的公用服務的同時,兼容面向個性化應用的服務。
下圖為數(shù)據(jù)服務層在數(shù)據(jù)分層中的位置:
圖:數(shù)據(jù)應用層與數(shù)據(jù)服務層關系
綜上,企業(yè)數(shù)據(jù)中臺依托數(shù)據(jù)采集層、數(shù)據(jù)計算層、數(shù)據(jù)服務層,為上層數(shù)據(jù)產(chǎn)品、業(yè)務系統(tǒng)等提供數(shù)據(jù)支撐。云上數(shù)據(jù)中臺產(chǎn)品Dataphin從“采、建、管、用”為企業(yè)提供一站式數(shù)據(jù)中臺各層次的實現(xiàn),配合阿里云系列產(chǎn)品,可實現(xiàn)企業(yè)數(shù)據(jù)中臺全鏈路穩(wěn)定、高效構建。
?
?
原文鏈接
本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉載。
總結
以上是生活随笔為你收集整理的数据中台交付专家告诉你,数据架构的分层怎样更加合理?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深入理解C++中的RVO
- 下一篇: 因云而生 全新视角看阿里云服务器硬件方升