當(dāng)前位置：首頁(yè) > 编程资源 > 综合教程 >内容正文

综合教程

数仓分层理论_多元分层理论

發(fā)布時(shí)間：2023/12/19 综合教程 23 生活家

生活随笔收集整理的這篇文章主要介紹了数仓分层理论_多元分层理论小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

數(shù)據(jù)倉(cāng)庫(kù)

? 在實(shí)際工作中，數(shù)倉(cāng)分層、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理一直是一個(gè)持續(xù)優(yōu)化的過(guò)程，我們公司業(yè)務(wù)也是在持續(xù)的做數(shù)倉(cāng)的優(yōu)化工作，在數(shù)據(jù)治理這方面還是欠缺很多的經(jīng)驗(yàn)的。下面先簡(jiǎn)單整理了一下第一個(gè)理論部分的相關(guān)筆記。

數(shù)據(jù)倉(cāng)庫(kù)理論

數(shù)據(jù)倉(cāng)庫(kù)四大特征

面向主題：較高層次上企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類(lèi)并進(jìn)行分析利用的抽象概念。
集成的：從不同數(shù)據(jù)庫(kù)、數(shù)據(jù)文件和不同日志中抽取的，既有內(nèi)部數(shù)據(jù)，又有外部數(shù)據(jù)
穩(wěn)定的：主要是針對(duì)應(yīng)用而言，數(shù)據(jù)一旦進(jìn)入數(shù)倉(cāng)之后，一般情況下保留較長(zhǎng)時(shí)間，極少更新。
反映歷史變化的：數(shù)倉(cāng)包含各粒度的歷史數(shù)據(jù)。數(shù)倉(cāng)的數(shù)據(jù)也會(huì)做定期的更新，以適應(yīng)決策需要。

數(shù)據(jù)倉(cāng)庫(kù)作用

整合業(yè)務(wù)數(shù)據(jù)，建立統(tǒng)一的數(shù)據(jù)中心;
生成業(yè)務(wù)報(bào)表，了解企業(yè)的經(jīng)營(yíng)狀況;
輔助決策管理提供數(shù)據(jù)支持
可以作為各個(gè)業(yè)務(wù)的數(shù)據(jù)源，形成業(yè)務(wù)數(shù)據(jù)互相反饋的良性循環(huán);
分析用戶(hù)行為數(shù)據(jù)，通過(guò)數(shù)據(jù)挖掘來(lái)降低投入成本，提高投入效果;
開(kāi)發(fā)數(shù)據(jù)產(chǎn)品，直接或間接地為企業(yè)盈利

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的比較

事務(wù)–是數(shù)據(jù)庫(kù)操作的最小工作單元，是作為單個(gè)邏輯工作單元執(zhí)行的一系列操作；這些操作作為一個(gè)整體一起向系統(tǒng)提交，要么都執(zhí)行、要么都不執(zhí)行；
事務(wù)的四大特性：
1 、原子性：事務(wù)是數(shù)據(jù)庫(kù)的邏輯工作單位，事務(wù)中包含的各操作要么都做，要么都不做
2 、一致性：事務(wù)執(zhí)行的結(jié)果必須是使數(shù)據(jù)庫(kù)從一個(gè)一致性狀態(tài)變到另一個(gè)一致性狀態(tài)。
3 、隔離性：一個(gè)事務(wù)的執(zhí)行不能其它事務(wù)干擾。
4 、持續(xù)性：也稱(chēng)永久性，指一個(gè)事務(wù)一旦提交，它對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)的改變就應(yīng)該是永久性的。

數(shù)據(jù)庫(kù)–OLTP（On-Line Transaction Processing 聯(lián)機(jī)事務(wù)處理）
對(duì)少數(shù)記錄查詢(xún)、修改；
用戶(hù)關(guān)心操作響應(yīng)時(shí)間、數(shù)據(jù)安全性、完整性和并發(fā)性
主要用于操作型處理
數(shù)據(jù)倉(cāng)庫(kù)–OLAP（On-Line Analytical Processing 聯(lián)機(jī)分析處理）
對(duì)某些主題的歷史數(shù)據(jù)分析、支持管理決策。

數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)對(duì)比：

數(shù)倉(cāng)用于解決企業(yè)級(jí)數(shù)據(jù)分析問(wèn)題、管理和決策。
數(shù)倉(cāng)為分析數(shù)據(jù)而設(shè)計(jì)；數(shù)據(jù)庫(kù)為捕獲和存儲(chǔ)數(shù)據(jù)設(shè)計(jì)
數(shù)倉(cāng)面向分析，面向主題設(shè)計(jì)的；數(shù)據(jù)庫(kù)是面向事務(wù)設(shè)計(jì)的，屬于操作型。
數(shù)倉(cāng)采用反范式設(shè)計(jì)（引入數(shù)據(jù)冗余來(lái)提高查詢(xún)效率）；數(shù)據(jù)庫(kù)設(shè)計(jì)盡量避免冗余，一般采用符合范式規(guī)則設(shè)計(jì)。
數(shù)倉(cāng)較大，且數(shù)據(jù)來(lái)源于多個(gè)異構(gòu)數(shù)據(jù)源，保留歷史數(shù)據(jù)；數(shù)據(jù)庫(kù)存儲(chǔ)有限期限，單一領(lǐng)域業(yè)務(wù)數(shù)據(jù)。
數(shù)倉(cāng)面向主題設(shè)計(jì)；數(shù)據(jù)庫(kù)面向事務(wù)設(shè)計(jì)；

數(shù)據(jù)集市

數(shù)據(jù)倉(cāng)庫(kù)的某一部分，是按照部門(mén)或業(yè)務(wù)分部建立的反映各個(gè)子主題的局部性數(shù)據(jù)組織，也可以稱(chēng)為部門(mén)數(shù)據(jù)倉(cāng)庫(kù)。
eg商品銷(xiāo)售中的數(shù)據(jù)倉(cāng)庫(kù)建立不同主題的數(shù)據(jù)集市：
商品采購(gòu)數(shù)據(jù)集市
商品庫(kù)存數(shù)據(jù)集市
商品銷(xiāo)售數(shù)據(jù)集市

數(shù)據(jù)倉(cāng)庫(kù)建模方法

ER模型（Entity Relationship)–在范式理論上符合3NF模型

建立ER模型需要全面了解整個(gè)企業(yè)業(yè)務(wù)和數(shù)據(jù)
實(shí)施周期非常長(zhǎng)
對(duì)建模人員的能力要求非常高
ER模型建設(shè)數(shù)倉(cāng)是為整合數(shù)據(jù)，將各系統(tǒng)中數(shù)據(jù)以企業(yè)角度主題進(jìn)行相似性組合和合并，并進(jìn)行一致性處理，不能用于分析決策。建模步驟：
高層模型
中層模型
物理模型

維度模型

為分析需求服務(wù)，快速完成分析，并具有較好的大規(guī)模復(fù)雜查詢(xún)的響應(yīng)性能
星型模型
雪花模型
維度模型設(shè)計(jì)步驟：
1.選擇需進(jìn)行分析決策的業(yè)務(wù)過(guò)程
2.選擇數(shù)據(jù)的粒度
3.識(shí)別維度表，包括維度屬性，用于分析時(shí)進(jìn)行分組和篩選。
4.選擇事實(shí)，確定分析需要衡量的指標(biāo)

數(shù)據(jù)倉(cāng)庫(kù)分層

數(shù)據(jù)倉(cāng)庫(kù)是指一整套的數(shù)據(jù)建模、ETL（數(shù)據(jù)抽取、轉(zhuǎn)換、加載）、作業(yè)調(diào)度等在內(nèi)的完整理論體系流程。

數(shù)倉(cāng)分層原因：

清晰的數(shù)據(jù)結(jié)構(gòu)
將復(fù)雜的問(wèn)題簡(jiǎn)單化
減少重復(fù)開(kāi)發(fā)
屏蔽原始數(shù)據(jù)的異常
數(shù)據(jù)血緣關(guān)系追蹤

常見(jiàn)數(shù)據(jù)分層為3層：數(shù)據(jù)操作層、數(shù)據(jù)倉(cāng)庫(kù)層、數(shù)據(jù)應(yīng)用層（數(shù)據(jù)集市層），正常情況下會(huì)根據(jù)業(yè)務(wù)或者開(kāi)發(fā)人員經(jīng)驗(yàn)劃分為不同的層。

ODS（Operation Data Store 數(shù)據(jù)準(zhǔn)備區(qū)）：最原始的數(shù)據(jù)，即是最處接收的業(yè)務(wù)日志數(shù)據(jù)或者異構(gòu)數(shù)據(jù)。

ODS來(lái)源包括：1.業(yè)務(wù)數(shù)據(jù)庫(kù)，使用DataX，Sqoop等工具抽取；實(shí)時(shí)應(yīng)用中，使用Canal監(jiān)聽(tīng)Mysql的Binlog，實(shí)時(shí)接入變更的數(shù)據(jù)。
埋點(diǎn)日志：key使用Flume定時(shí)抽取。
其他數(shù)據(jù)源：第三方購(gòu)買(mǎi)數(shù)據(jù)或網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù)。

DW（Data Warehouse 數(shù)據(jù)倉(cāng)庫(kù)層）：包括DWD，DWS，DIM層；由ODS層數(shù)據(jù)加工而成。

DWD（Data Warehouse Detail 細(xì)節(jié)數(shù)據(jù)層）：是業(yè)務(wù)層與數(shù)據(jù)倉(cāng)庫(kù)的隔離層。構(gòu)建細(xì)粒度的明細(xì)層事實(shí)表。也可將明細(xì)事實(shí)表的某些重要維度屬性字段做適當(dāng)冗余，也即寬表化處理;
DWS (Data Warehouse Service 服務(wù)數(shù)據(jù)層)：基于DWD的基礎(chǔ)數(shù)據(jù)，整合匯總成分析某一個(gè)主題域的服務(wù)數(shù)據(jù)。
公共維度層(DIM):基于維度建模理念思想，建立一致性維度;
TMP層 :臨時(shí)層，存放計(jì)算過(guò)程中臨時(shí)產(chǎn)生的數(shù)據(jù);

ADS (Application Data Store 應(yīng)用數(shù)據(jù)層)：基于DW數(shù)據(jù)，整合匯總成主題域的服務(wù)數(shù)據(jù)，用于業(yè)務(wù)查詢(xún)等。

數(shù)據(jù)倉(cāng)庫(kù)模型

事實(shí)表與維度表

事實(shí)表：包含數(shù)字?jǐn)?shù)據(jù)，并且數(shù)字信息可以匯總。事實(shí)表的粒度決定了數(shù)倉(cāng)中數(shù)據(jù)的詳細(xì)程度。
常見(jiàn)事實(shí)表：訂單事實(shí)表
事實(shí)表特點(diǎn)：表多；數(shù)據(jù)量大
事實(shí)表根據(jù)數(shù)據(jù)粒度分為：事務(wù)事實(shí)表、周期快照事實(shí)表、累計(jì)快照事實(shí)表。

維度表：用來(lái)分析數(shù)據(jù)的角度。（個(gè)人理解是如何進(jìn)行分組的維度信息）
常見(jiàn)維度表：時(shí)間維度表、地域維度表、商品維度表
小結(jié)：
事實(shí)表關(guān)注內(nèi)容：eg：銷(xiāo)售額、銷(xiāo)售量
維度表是觀察事務(wù)的角度。

事實(shí)表分類(lèi)

事務(wù)事實(shí)表：事務(wù)事實(shí)表記錄的事務(wù)層面的事實(shí)，保存的是最原子的數(shù)據(jù)，也稱(chēng)“原子事實(shí)表；eg：訂單表
周期性快照事實(shí)表：以具有規(guī)律性的、可預(yù)見(jiàn)的時(shí)間間隔來(lái)記錄事實(shí)，時(shí)間間隔如每天、每月、每年等等。eg:日銷(xiāo)售表，
累積快照事實(shí)表：累積快照事實(shí)表記錄的不確定的周期的數(shù)據(jù)。eg:訂貨日期，實(shí)際發(fā)貨日期

星型模型

是一種多維的數(shù)據(jù)關(guān)系，由一個(gè)事實(shí)表和一組維表組成，
事實(shí)表在中心，周?chē)鷩@的連接著維表；
事實(shí)表中包含了大量數(shù)據(jù)，沒(méi)有數(shù)據(jù)冗余;
維表是逆規(guī)范化的，包含一定的數(shù)據(jù)冗余；

雪花模型

是星型模型的變異，維表是規(guī)范化的，
特點(diǎn)：雪花模型結(jié)構(gòu)去除了數(shù)據(jù)冗余。

事實(shí)星座

共享維表的模式，也可以看做是星型模式的匯集，因而稱(chēng)為星系模型或事實(shí)星座模式。
特點(diǎn)：公用維表

數(shù)倉(cāng)模型小結(jié)：

星型模型存在數(shù)據(jù)冗余，所以在查詢(xún)統(tǒng)計(jì)時(shí)只需要做少量的表連接，查詢(xún)效率高;
星型模型不考慮維表正規(guī)化的因素，設(shè)計(jì)、實(shí)現(xiàn)容易;
在數(shù)據(jù)冗余可接受的情況下，實(shí)際上使用星型模型比較多;

元數(shù)據(jù)：關(guān)于數(shù)據(jù)的數(shù)據(jù)

元數(shù)據(jù)相當(dāng)于所有數(shù)據(jù)的地圖，元數(shù)據(jù)方便查看數(shù)據(jù)倉(cāng)庫(kù)中的以下幾個(gè)方面：

有哪些數(shù)據(jù)
數(shù)據(jù)分布情況
數(shù)據(jù)類(lèi)型
數(shù)據(jù)之間的相關(guān)性
數(shù)據(jù)的訪(fǎng)問(wèn)頻次

元數(shù)據(jù)貫穿大數(shù)據(jù)平臺(tái)數(shù)據(jù)流動(dòng)的全程，主要包括數(shù)據(jù)源元數(shù)據(jù)、數(shù)據(jù)加工處理過(guò)程元數(shù)據(jù)、數(shù)據(jù)主題庫(kù)專(zhuān)題課元數(shù)據(jù)、服務(wù)層元數(shù)據(jù)、應(yīng)用層元數(shù)據(jù)等。

業(yè)內(nèi)通常把元數(shù)據(jù)分為以下類(lèi)型:

技術(shù)元數(shù)據(jù):庫(kù)表結(jié)構(gòu)、數(shù)據(jù)模型、ETL程序、SQL程序等
業(yè)務(wù)元數(shù)據(jù):業(yè)務(wù)指標(biāo)、業(yè)務(wù)代碼、業(yè)務(wù)術(shù)語(yǔ)等
管理元數(shù)據(jù):數(shù)據(jù)所有者、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全等

總結(jié)

以上是生活随笔為你收集整理的数仓分层理论_多元分层理论的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

理论

上一篇： Cloud for Customer的m
下一篇：软件版本号命名规范1.0.0.1什么意思