阿里巴巴大数据之路——数据模型篇
阿里巴巴大數(shù)據(jù)之路——數(shù)據(jù)模型篇
一、概述
1.什么是數(shù)據(jù)模型?
數(shù)據(jù)模型就是數(shù)據(jù)的組織和存儲(chǔ)方法。主要關(guān)注的是從業(yè)務(wù)、數(shù)據(jù)存取和使用角度合理存儲(chǔ)數(shù)據(jù)。
2.典型數(shù)據(jù)倉(cāng)庫(kù)建模方法論
ER模型
緯度模型(建模四步曲:確定業(yè)務(wù)流程->確定粒度->確定緯度->確定事實(shí)表)
二、阿里巴巴數(shù)據(jù)整合管理體系oneData
1.體系架構(gòu)
核心內(nèi)容包括規(guī)范定義、模型設(shè)計(jì)等!
? 2.模型分層
主要分為三大層(4小層):操作數(shù)據(jù)層(ODS),公共緯度模型層(CDM),應(yīng)用數(shù)據(jù)層(ADS),其中,CDM又分為明細(xì)數(shù)據(jù)層(DWD)和匯總數(shù)據(jù)層(DWS)
操作層數(shù)據(jù)ODS:貼源設(shè)計(jì),幾乎無(wú)處理地存放操作系統(tǒng)數(shù)據(jù)
? ? ?結(jié)構(gòu)化數(shù)據(jù)增量或全量同步到MaxComputer
非結(jié)構(gòu)化數(shù)據(jù)(日志)結(jié)構(gòu)化處理同步到MaxComputer
累積并保存清洗數(shù)據(jù)
公共緯度模型層:存放明細(xì)數(shù)據(jù)、維表數(shù)據(jù)以及公共指標(biāo)匯總數(shù)據(jù),比較多的采用緯度退化的手段,將緯度退化到事實(shí)表中,減少關(guān)聯(lián)
??組合相關(guān)和相似數(shù)據(jù),采用明細(xì)寬表,減少數(shù)據(jù)掃描
? 公共指標(biāo)統(tǒng)一加工,統(tǒng)一口徑,建立邏輯匯總寬表
? 建立一致性緯度
應(yīng)用數(shù)據(jù)層ADS:存放數(shù)據(jù)產(chǎn)品個(gè)性化的指標(biāo)數(shù)據(jù)
??個(gè)性化指標(biāo)加工,無(wú)公用性
? 基于應(yīng)用的數(shù)據(jù)組裝,大寬表集市、橫表轉(zhuǎn)縱表...
整個(gè)模型如下圖所示:
?
??
//數(shù)據(jù)調(diào)用服務(wù)一般優(yōu)先使用CDM層,然后ODS,ADS作為應(yīng)用數(shù)據(jù)一般不對(duì)外提供服務(wù)
3.基本原則
? ?高內(nèi)聚低耦合:將業(yè)務(wù)相近的放在一起,將高概率使用的放一起,遵循軟件設(shè)計(jì)開(kāi)發(fā)的高內(nèi)聚低耦合原則
核心模型與拓展模型分離:核心模型只包含常用核心業(yè)務(wù)字段,保證核心模型的簡(jiǎn)潔性
一致性:相同含義的字段在不同表中必須使用相同的命名,表名等命名必須清晰一致,見(jiàn)名知意
...
4.實(shí)施工作流
(1)?數(shù)據(jù)調(diào)研
包含業(yè)務(wù)調(diào)研和需求調(diào)研
? ??(2)?架構(gòu)設(shè)計(jì)
數(shù)據(jù)域劃分
【數(shù)據(jù)域設(shè)計(jì)】(就是給出數(shù)據(jù)的大分類,數(shù)據(jù)所屬的域)
?
?
?
構(gòu)建總線矩陣
【總線結(jié)構(gòu)】(就是列出緯度與主題,進(jìn)行存在的緯度畫(huà)?)
后續(xù)包括規(guī)范定義、模型設(shè)計(jì)與總結(jié)
? 規(guī)范定義:
命名規(guī)范統(tǒng)一:表名、字段名等規(guī)范統(tǒng)一
字段類型統(tǒng)一:相同與相似字段類型統(tǒng)一
公共代碼與代碼值統(tǒng)一:代碼與標(biāo)志性字段應(yīng)統(tǒng)一
總結(jié)
以上是生活随笔為你收集整理的阿里巴巴大数据之路——数据模型篇的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 以太坊搭建,不能使用puppeth 创建
- 下一篇: 使用 TOGAF 9.1 框架與 Arc