数据分层/ODS/DW/DM
生活随笔
收集整理的這篇文章主要介紹了
数据分层/ODS/DW/DM
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
數(shù)據(jù)分層/ODS/DW/DM
- 數(shù)據(jù)分層
- 數(shù)據(jù)分層的目的
- ODS層 (Operational Data Store 又稱數(shù)據(jù)運營層)
- DW層(data warehouse 數(shù)據(jù)倉庫)
- DM層 (data market 數(shù)據(jù)集市)
數(shù)據(jù)分層
數(shù)據(jù)分層的目的
我們對數(shù)據(jù)進行分層的一個主要原因就是希望在管理數(shù)據(jù)的時候,能對數(shù)據(jù)有一個更加清晰的掌控,詳細來講,主要有下面幾個原因:1.清晰數(shù)據(jù)結(jié)構(gòu):每一個數(shù)據(jù)分層都有它的作用域,這樣我們在使用表的時候能更方便地定位和理解。 2.數(shù)據(jù)血緣追蹤:簡單來講可以這樣理解,我們最終給業(yè)務(wù)誠信的是一能直接使用的張業(yè)務(wù)表,但是它的來源有很多,如果有一張來源表出問題了,我們希望能夠快速準確地定位到問題,并清楚它的危害范圍。 3.減少重復(fù)開發(fā):規(guī)范數(shù)據(jù)分層,開發(fā)一些通用的中間層數(shù)據(jù),能夠減少極大的重復(fù)計算。 4.把復(fù)雜問題簡單化。講一個復(fù)雜的任務(wù)分解成多個步驟來完成,每一層只處理單一的步驟,比較簡單和容易理解。而且便于維護數(shù)據(jù)的準確性,當(dāng)數(shù)據(jù)出現(xiàn)問題之后,可以不用修復(fù)所有的數(shù)據(jù),只需要從有問題的步驟開始修復(fù)。 5.屏蔽原始數(shù)據(jù)的異常。 6.屏蔽業(yè)務(wù)的影響,不必改一次業(yè)務(wù)就需要重新接入數(shù)據(jù)。ODS層 (Operational Data Store 又稱數(shù)據(jù)運營層)
ods 又稱數(shù)據(jù)運營層,Operational Data Store 層,數(shù)據(jù)來源包括: 1. sqoop 數(shù)據(jù)導(dǎo)入 2. canal 監(jiān)控mysql binlog 實時導(dǎo)入 3. flume/網(wǎng)關(guān) --> kafaka --> flink/streaming 流導(dǎo)入ods層數(shù)據(jù)并非完全的原始數(shù)據(jù),而是要考慮一定的數(shù)據(jù)清洗,比如異常字段的處理、 字段命名規(guī)范化、時間字段的統(tǒng)一等處理后的結(jié)果。DW層(data warehouse 數(shù)據(jù)倉庫)
DW數(shù)據(jù)分bai層,由下到上為 DWD,DWB,DWS DWD:dudata warehouse detail 細節(jié)數(shù)據(jù)層,有的也稱為 ODS層,是業(yè)務(wù)層dao與數(shù)據(jù)倉庫的隔離層 DWB:data warehouse base 基礎(chǔ)數(shù)據(jù)層,存儲的是客觀數(shù)據(jù),一般用作中間層,可以認為是大量指標的數(shù)據(jù)層。 DWS:data warehouse service 服務(wù)數(shù)據(jù)層,基于DWB上的基礎(chǔ)數(shù)據(jù),整合匯總成分析某一個主題域的服務(wù)數(shù)據(jù),一般是寬表。 1.如果 ods 層的數(shù)據(jù)就非常規(guī)整,基本能滿足我們絕大部分的需求,這當(dāng)然是好的,這時候 dwd 層其實也沒太大必要。 但是現(xiàn)實中接觸的情況是 ods 層的數(shù)據(jù)很難保證質(zhì)量,畢竟數(shù)據(jù)的來源多種多樣,推送方也會有自己的推送邏輯,在這種情況下,我們就需要通過額外的一層 dwd 來屏蔽一些底層的差異。 2.DWB層是面向主題的,數(shù)據(jù)倉庫中數(shù)據(jù)是按照一定主題領(lǐng)域進行組織的,每一個主題對應(yīng)一個宏觀分析領(lǐng)域, 3.DWS層可以理解成 dw到dm的過度,是一些寬表匯總,有些可以理解成dm層dw理解: 1.dw主要提供查詢服務(wù),并且需要查詢能夠及時響應(yīng)。 2.進入dw的數(shù)據(jù)應(yīng)該是能唯一的具有權(quán)威性的數(shù)據(jù),企業(yè)的系統(tǒng)只能使用從dw提供的被認可的數(shù)據(jù),所以預(yù)先做好企業(yè)的元數(shù)據(jù)建立非常必要。 3.定期需要對dw里面的數(shù)據(jù)進行質(zhì)量檢查,保證dw里面的數(shù)據(jù)唯一、權(quán)威、準確。 4.dw的數(shù)據(jù)也是只允許增加不允許刪除和修改,數(shù)據(jù)倉庫主要是提供查詢服務(wù),刪除和修改在分布式系統(tǒng)中會消耗大量的性能資源。DM層 (data market 數(shù)據(jù)集市)
數(shù)據(jù)集市,以某個業(yè)務(wù)應(yīng)用為出發(fā)點而建設(shè)的局部dw,dw只關(guān)心自己需要的數(shù)據(jù),不會全盤考慮企業(yè)整體的數(shù)據(jù)架構(gòu)和應(yīng)用。每個應(yīng)用有自己的dmdm理解: 1.dm結(jié)構(gòu)清晰、針對性強、擴展性好,因為dm僅僅是單對某一個領(lǐng)域而建立,容易維護和修改。 2.dm建設(shè)任務(wù)繁重,公司有眾多業(yè)務(wù)每一個業(yè)務(wù)單獨加建立工作量集合增加啊。 3.dm的建立消耗更多存儲空間,單獨一個dm可能數(shù)據(jù)量不大,但是企業(yè)所有領(lǐng)域都建立dm數(shù)據(jù)量就會增加很多倍。總結(jié)
以上是生活随笔為你收集整理的数据分层/ODS/DW/DM的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 格子大法与换入换出分析
- 下一篇: 什么技术能改变世界?