阿里巴巴大数据实践—阿里巴巴的数据模型实践综述
來源:數(shù)智化轉(zhuǎn)型俱樂部
阿里巴巴集團很早就已經(jīng)把大數(shù)據(jù)作為其戰(zhàn)略目標(biāo)實施,而且其各個業(yè)務(wù)也非常依賴數(shù)據(jù)支撐運營,那么阿里巴巴究竟采取何種方法構(gòu)建自己的數(shù)據(jù)倉庫模型呢?阿里巴巴的數(shù)據(jù)倉庫模型建設(shè)經(jīng)歷了多個發(fā)展階段。
1.完全應(yīng)用驅(qū)動時代
第一個階段:完全應(yīng)用驅(qū)動的時代,阿里巴巴的第一代數(shù)據(jù)倉庫系統(tǒng)構(gòu)建在Oracle上,數(shù)據(jù)完全以滿足報表需求為目的,將數(shù)據(jù)以與源結(jié)構(gòu)相同的方式同步到Oracle(稱作ODS層),數(shù)據(jù)工程師基于ODS數(shù)據(jù)進行統(tǒng)計,基本沒有系統(tǒng)化的模型方法體系,完全基于對Oracle數(shù)據(jù)庫特性的利用進行數(shù)據(jù)存儲和加工,部分采用一些維度建模的緩慢變化維方式進行歷史數(shù)據(jù)處理。這時候的數(shù)據(jù)架構(gòu)只有兩層,即ODS+DSS。
2.四層模型架構(gòu)時代
第二個階段:隨著阿里巴巴業(yè)務(wù)的快速發(fā)展,數(shù)據(jù)量也在飛速增長,性能成為一個較大的問題,因此引入了當(dāng)時MPP架構(gòu)體系的Greenplum,同時阿里巴巴的數(shù)據(jù)團隊也在著手進行一定的數(shù)據(jù)架構(gòu)優(yōu)化,希望通過一些模型技術(shù)改變煙囪式的開發(fā)模型,消除一些冗余,提升數(shù)據(jù)的一致性。來自傳統(tǒng)行業(yè)的數(shù)據(jù)倉庫工程師開始嘗試將工程領(lǐng)域比較流行的ER模型+維度模型方式應(yīng)用到阿里巴巴集團,構(gòu)建出一個四層的模型架構(gòu),即ODL(操作數(shù)據(jù)層)+BDL(基礎(chǔ)數(shù)據(jù)層)+IDL(接口數(shù)據(jù)層)+ADL(應(yīng)用數(shù)據(jù)層)。ODL和源系統(tǒng)保持一致;BDL希望引入ER模型,加強數(shù)據(jù)的整合,構(gòu)建一致的基礎(chǔ)數(shù)據(jù)模型;IDL基于維度模型方法構(gòu)建集市層;ADL完成應(yīng)用的個性化和基于展現(xiàn)需求的數(shù)據(jù)組裝。在此期間,我們在構(gòu)建ER模型時遇到了比較大的困難和挑戰(zhàn),互聯(lián)網(wǎng)業(yè)務(wù)的快速發(fā)展、人員的快速變化、業(yè)務(wù)知識功底的不夠全面,導(dǎo)致ER模型設(shè)計遲遲不能產(chǎn)出。至此,我們也得到了一個經(jīng)驗:在不太成熟、快速變化的業(yè)務(wù)面前,構(gòu)建ER模型的風(fēng)險非常大,不太適合去構(gòu)建ER模型。
3.公共層模型數(shù)據(jù)架構(gòu)體系時代
第三個階段:阿里巴巴集團的業(yè)務(wù)和數(shù)據(jù)還在飛速發(fā)展,這時候迎來了以Hadoop為代表的分布式存儲計算平臺的快速發(fā)展,同時阿里巴巴集團自主研發(fā)的分布式計算平臺MaxCompute也在緊鑼密鼓地進行著。我們在擁抱分布式計算平臺的同時,也開始建設(shè)自己的第三代模型架構(gòu),這時候需要找到既適合阿里巴巴集團業(yè)務(wù)發(fā)展,又能充分利用分布式計算平臺能力的數(shù)據(jù)模型方式。我們選擇了以Kimball的維度建模為核心理念的模型方法論,同時對其進行了一定的升級和擴展,構(gòu)建了阿里巴巴集團的公共層模型數(shù)據(jù)架構(gòu)體系。
數(shù)據(jù)公共層建設(shè)的目的是著力解決數(shù)據(jù)存儲和計算的共享問題。阿里巴巴集團當(dāng)下已經(jīng)發(fā)展為多個BU,各個業(yè)務(wù)產(chǎn)生龐大的數(shù)據(jù),并且數(shù)據(jù)每年以近2.5倍的速度在增長,數(shù)據(jù)的增長遠(yuǎn)遠(yuǎn)超過業(yè)務(wù)的增長,帶來的成本開銷也是非常令人擔(dān)憂的。
阿里巴巴數(shù)據(jù)公共層建設(shè)的指導(dǎo)方法是一套統(tǒng)一化的集團數(shù)據(jù)整合及管理的方法體系(在內(nèi)部這一體系稱為“OneData”),其包括一致性的指標(biāo)定義體系、模型設(shè)計方法體系以及配套工具。注:本書中出現(xiàn)的部分專有名詞、專業(yè)術(shù)語、產(chǎn)品名稱、軟件項目名稱、工具名稱等,是淘寶(中國)軟件有限公司內(nèi)部項目的慣用詞語,如與第三方名稱雷同,實屬巧合。
?
原文鏈接
本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
總結(jié)
以上是生活随笔為你收集整理的阿里巴巴大数据实践—阿里巴巴的数据模型实践综述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 菜鸟+Hologres=智能物流
- 下一篇: 阿里巴巴大数据实践:OneData模型实