数仓分层理论_多元分层理论
數(shù)據(jù)倉(cāng)庫(kù)
? 在實(shí)際工作中,數(shù)倉(cāng)分層、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理一直是一個(gè)持續(xù)優(yōu)化的過(guò)程,我們公司業(yè)務(wù)也是在持續(xù)的做數(shù)倉(cāng)的優(yōu)化工作,在數(shù)據(jù)治理這方面還是欠缺很多的經(jīng)驗(yàn)的。下面先簡(jiǎn)單整理了一下第一個(gè)理論部分的相關(guān)筆記。
?
數(shù)據(jù)倉(cāng)庫(kù)理論
數(shù)據(jù)倉(cāng)庫(kù)四大特征
-
面向主題:較高層次上企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類(lèi)并進(jìn)行分析利用的抽象概念。
-
集成的:從不同數(shù)據(jù)庫(kù)、數(shù)據(jù)文件和不同日志中抽取的,既有內(nèi)部數(shù)據(jù),又有外部數(shù)據(jù)
-
穩(wěn)定的:主要是針對(duì)應(yīng)用而言,數(shù)據(jù)一旦進(jìn)入數(shù)倉(cāng)之后,一般情況下保留較長(zhǎng)時(shí)間,極少更新。
-
反映歷史變化的:數(shù)倉(cāng)包含各粒度的歷史數(shù)據(jù)。數(shù)倉(cāng)的數(shù)據(jù)也會(huì)做定期的更新,以適應(yīng)決策需要。
數(shù)據(jù)倉(cāng)庫(kù)作用
-
整合業(yè)務(wù)數(shù)據(jù),建立統(tǒng)一的數(shù)據(jù)中心;
-
生成業(yè)務(wù)報(bào)表,了解企業(yè)的經(jīng)營(yíng)狀況;
-
輔助決策管理提供數(shù)據(jù)支持
-
可以作為各個(gè)業(yè)務(wù)的數(shù)據(jù)源,形成業(yè)務(wù)數(shù)據(jù)互相反饋的良性循環(huán);
-
分析用戶(hù)行為數(shù)據(jù),通過(guò)數(shù)據(jù)挖掘來(lái)降低投入成本,提高投入效果;
-
開(kāi)發(fā)數(shù)據(jù)產(chǎn)品,直接或間接地為企業(yè)盈利
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的比較
-
事務(wù)–是數(shù)據(jù)庫(kù)操作的最小工作單元,是作為單個(gè)邏輯工作單元執(zhí)行的一系列操作;這些操作作為一個(gè)整體一起向系統(tǒng)提交,要么都執(zhí)行、要么都不執(zhí)行;
-
事務(wù)的四大特性:
-
1 、原子性:事務(wù)是數(shù)據(jù)庫(kù)的邏輯工作單位,事務(wù)中包含的各操作要么都做,要么都不做
-
2 、一致性:事務(wù)執(zhí)行的結(jié)果必須是使數(shù)據(jù)庫(kù)從一個(gè)一致性狀態(tài)變到另一個(gè)一致性狀態(tài)。
-
3 、隔離性:一個(gè)事務(wù)的執(zhí)行不能其它事務(wù)干擾。
-
4 、持續(xù)性:也稱(chēng)永久性,指一個(gè)事務(wù)一旦提交,它對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)的改變就應(yīng)該是永久性的。
-
數(shù)據(jù)庫(kù)–OLTP(On-Line Transaction Processing 聯(lián)機(jī)事務(wù)處理)
-
對(duì)少數(shù)記錄查詢(xún)、修改;
-
用戶(hù)關(guān)心操作響應(yīng)時(shí)間、數(shù)據(jù)安全性、完整性和并發(fā)性
-
主要用于操作型處理
-
數(shù)據(jù)倉(cāng)庫(kù)–OLAP(On-Line Analytical Processing 聯(lián)機(jī)分析處理)
-
對(duì)某些主題的歷史數(shù)據(jù)分析、支持管理決策。
數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)對(duì)比:
-
數(shù)倉(cāng)用于解決企業(yè)級(jí)數(shù)據(jù)分析問(wèn)題、管理和決策。
-
數(shù)倉(cāng)為分析數(shù)據(jù)而設(shè)計(jì);數(shù)據(jù)庫(kù)為捕獲和存儲(chǔ)數(shù)據(jù)設(shè)計(jì)
-
數(shù)倉(cāng)面向分析,面向主題設(shè)計(jì)的;數(shù)據(jù)庫(kù)是面向事務(wù)設(shè)計(jì)的,屬于操作型。
-
數(shù)倉(cāng)采用反范式設(shè)計(jì)(引入數(shù)據(jù)冗余來(lái)提高查詢(xún)效率);數(shù)據(jù)庫(kù)設(shè)計(jì)盡量避免冗余,一般采用符合范式規(guī)則設(shè)計(jì)。
-
數(shù)倉(cāng)較大,且數(shù)據(jù)來(lái)源于多個(gè)異構(gòu)數(shù)據(jù)源,保留歷史數(shù)據(jù);數(shù)據(jù)庫(kù)存儲(chǔ)有限期限,單一領(lǐng)域業(yè)務(wù)數(shù)據(jù)。
-
數(shù)倉(cāng)面向主題設(shè)計(jì);數(shù)據(jù)庫(kù)面向事務(wù)設(shè)計(jì);
數(shù)據(jù)集市
-
數(shù)據(jù)倉(cāng)庫(kù)的某一部分,是按照部門(mén)或業(yè)務(wù)分部建立的反映各個(gè)子主題的局部性數(shù)據(jù)組織,也可以稱(chēng)為部門(mén)數(shù)據(jù)倉(cāng)庫(kù)。
-
eg商品銷(xiāo)售中的數(shù)據(jù)倉(cāng)庫(kù)建立不同主題的數(shù)據(jù)集市:
-
商品采購(gòu)數(shù)據(jù)集市
-
商品庫(kù)存數(shù)據(jù)集市
-
商品銷(xiāo)售數(shù)據(jù)集市
數(shù)據(jù)倉(cāng)庫(kù)建模方法
ER模型(Entity Relationship)–在范式理論上符合3NF模型
-
建立ER模型需要全面了解整個(gè)企業(yè)業(yè)務(wù)和數(shù)據(jù)
-
實(shí)施周期非常長(zhǎng)
-
對(duì)建模人員的能力要求非常高
-
ER模型建設(shè)數(shù)倉(cāng)是為整合數(shù)據(jù),將各系統(tǒng)中數(shù)據(jù)以企業(yè)角度主題進(jìn)行相似性組合和合并,并進(jìn)行一致性處理,不能用于分析決策。建模步驟:
-
高層模型
-
中層模型
-
物理模型
維度模型
-
為分析需求服務(wù),快速完成分析,并具有較好的大規(guī)模復(fù)雜查詢(xún)的響應(yīng)性能
-
星型模型
-
雪花模型
-
維度模型設(shè)計(jì)步驟:
-
1.選擇需進(jìn)行分析決策的業(yè)務(wù)過(guò)程
-
2.選擇數(shù)據(jù)的粒度
-
3.識(shí)別維度表,包括維度屬性,用于分析時(shí)進(jìn)行分組和篩選。
-
4.選擇事實(shí),確定分析需要衡量的指標(biāo)
數(shù)據(jù)倉(cāng)庫(kù)分層
數(shù)據(jù)倉(cāng)庫(kù)是指一整套的數(shù)據(jù)建模、ETL(數(shù)據(jù)抽取、轉(zhuǎn)換、加載)、作業(yè)調(diào)度等在內(nèi)的完整理論體系流程。
數(shù)倉(cāng)分層原因:
-
清晰的數(shù)據(jù)結(jié)構(gòu)
-
將復(fù)雜的問(wèn)題簡(jiǎn)單化
-
減少重復(fù)開(kāi)發(fā)
-
屏蔽原始數(shù)據(jù)的異常
-
數(shù)據(jù)血緣關(guān)系追蹤
常見(jiàn)數(shù)據(jù)分層為3層:數(shù)據(jù)操作層、數(shù)據(jù)倉(cāng)庫(kù)層、數(shù)據(jù)應(yīng)用層(數(shù)據(jù)集市層),正常情況下會(huì)根據(jù)業(yè)務(wù)或者開(kāi)發(fā)人員經(jīng)驗(yàn)劃分為不同的層。
?
ODS(Operation Data Store 數(shù)據(jù)準(zhǔn)備區(qū)):最原始的數(shù)據(jù),即是最處接收的業(yè)務(wù)日志數(shù)據(jù)或者異構(gòu)數(shù)據(jù)。
-
ODS來(lái)源包括:1.業(yè)務(wù)數(shù)據(jù)庫(kù),使用DataX,Sqoop等工具抽取;實(shí)時(shí)應(yīng)用中,使用Canal監(jiān)聽(tīng)Mysql的Binlog,實(shí)時(shí)接入變更的數(shù)據(jù)。
-
埋點(diǎn)日志:key使用Flume定時(shí)抽取。
-
其他數(shù)據(jù)源:第三方購(gòu)買(mǎi)數(shù)據(jù)或網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù)。
DW(Data Warehouse 數(shù)據(jù)倉(cāng)庫(kù)層):包括DWD,DWS,DIM層;由ODS層數(shù)據(jù)加工而成。
-
DWD(Data Warehouse Detail 細(xì)節(jié)數(shù)據(jù)層):是業(yè)務(wù)層與數(shù)據(jù)倉(cāng)庫(kù)的隔離層。構(gòu)建細(xì)粒度的明細(xì)層事實(shí)表。也可將明細(xì)事實(shí)表的某些重要維度屬性字段做適當(dāng)冗余,也即寬表化處理;
-
DWS (Data Warehouse Service 服務(wù)數(shù)據(jù)層):基于DWD的基礎(chǔ)數(shù)據(jù),整合匯總成分析某一個(gè)主題域的服務(wù)數(shù)據(jù)。
-
公共維度層(DIM):基于維度建模理念思想,建立一致性維度;
-
TMP層 :臨時(shí)層,存放計(jì)算過(guò)程中臨時(shí)產(chǎn)生的數(shù)據(jù);
ADS (Application Data Store 應(yīng)用數(shù)據(jù)層):基于DW數(shù)據(jù),整合匯總成主題域的服務(wù)數(shù)據(jù),用于業(yè)務(wù)查詢(xún)等。
數(shù)據(jù)倉(cāng)庫(kù)模型
事實(shí)表與維度表
-
事實(shí)表:包含數(shù)字?jǐn)?shù)據(jù),并且數(shù)字信息可以匯總。事實(shí)表的粒度決定了數(shù)倉(cāng)中數(shù)據(jù)的詳細(xì)程度。
-
常見(jiàn)事實(shí)表:訂單事實(shí)表
-
事實(shí)表特點(diǎn):表多;數(shù)據(jù)量大
-
事實(shí)表根據(jù)數(shù)據(jù)粒度分為:事務(wù)事實(shí)表、周期快照事實(shí)表、累計(jì)快照事實(shí)表。
-
維度表:用來(lái)分析數(shù)據(jù)的角度。(個(gè)人理解是如何進(jìn)行分組的維度信息)
-
常見(jiàn)維度表:時(shí)間維度表、地域維度表、商品維度表
-
小結(jié):
-
事實(shí)表關(guān)注內(nèi)容:eg:銷(xiāo)售額、銷(xiāo)售量
-
維度表是觀察事務(wù)的角度。
事實(shí)表分類(lèi)
-
事務(wù)事實(shí)表:事務(wù)事實(shí)表記錄的事務(wù)層面的事實(shí),保存的是最原子的數(shù)據(jù),也稱(chēng)“原子事實(shí)表;eg:訂單表
-
周期性快照事實(shí)表:以具有規(guī)律性的、可預(yù)見(jiàn)的時(shí)間間隔來(lái)記錄事實(shí),時(shí)間間隔如每天、每月、每年等等。eg:日銷(xiāo)售表,
-
累積快照事實(shí)表:累積快照事實(shí)表記錄的不確定的周期的數(shù)據(jù)。eg:訂貨日期,實(shí)際發(fā)貨日期
星型模型
?
星型模型
-
是一種多維的數(shù)據(jù)關(guān)系,由一個(gè)事實(shí)表和一組維表組成,
-
事實(shí)表在中心,周?chē)鷩@的連接著維表;
-
事實(shí)表中包含了大量數(shù)據(jù),沒(méi)有數(shù)據(jù)冗余;
-
維表是逆規(guī)范化的,包含一定的數(shù)據(jù)冗余;
雪花模型
?
雪花模型
-
是星型模型的變異,維表是規(guī)范化的,
-
特點(diǎn):雪花模型結(jié)構(gòu)去除了數(shù)據(jù)冗余。
事實(shí)星座
?
事實(shí)星座
-
共享維表的模式,也可以看做是星型模式的匯集,因而稱(chēng)為星系模型或事實(shí)星座模式。
-
特點(diǎn):公用維表
數(shù)倉(cāng)模型小結(jié):
-
星型模型存在數(shù)據(jù)冗余,所以在查詢(xún)統(tǒng)計(jì)時(shí)只需要做少量的表連接,查詢(xún)效率高;
-
星型模型不考慮維表正規(guī)化的因素,設(shè)計(jì)、實(shí)現(xiàn)容易;
-
在數(shù)據(jù)冗余可接受的情況下,實(shí)際上使用星型模型比較多;
元數(shù)據(jù):關(guān)于數(shù)據(jù)的數(shù)據(jù)
元數(shù)據(jù)相當(dāng)于所有數(shù)據(jù)的地圖,元數(shù)據(jù)方便查看數(shù)據(jù)倉(cāng)庫(kù)中的以下幾個(gè)方面:
-
有哪些數(shù)據(jù)
-
數(shù)據(jù)分布情況
-
數(shù)據(jù)類(lèi)型
-
數(shù)據(jù)之間的相關(guān)性
-
數(shù)據(jù)的訪(fǎng)問(wèn)頻次
元數(shù)據(jù)貫穿大數(shù)據(jù)平臺(tái)數(shù)據(jù)流動(dòng)的全程,主要包括數(shù)據(jù)源元數(shù)據(jù)、數(shù)據(jù)加工處理過(guò)程元數(shù)據(jù)、數(shù)據(jù)主題庫(kù)專(zhuān)題課元數(shù)據(jù)、服務(wù)層元數(shù)據(jù)、應(yīng)用層元數(shù)據(jù)等。
業(yè)內(nèi)通常把元數(shù)據(jù)分為以下類(lèi)型:
-
技術(shù)元數(shù)據(jù):庫(kù)表結(jié)構(gòu)、數(shù)據(jù)模型、ETL程序、SQL程序等
-
業(yè)務(wù)元數(shù)據(jù):業(yè)務(wù)指標(biāo)、業(yè)務(wù)代碼、業(yè)務(wù)術(shù)語(yǔ)等
-
管理元數(shù)據(jù):數(shù)據(jù)所有者、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全等
總結(jié)
以上是生活随笔為你收集整理的数仓分层理论_多元分层理论的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Cloud for Customer的m
- 下一篇: 软件版本号命名规范1.0.0.1什么意思