数仓dw怎么建_搭建数据仓库的流程简介
如何搭建一個(gè)數(shù)據(jù)倉(cāng)庫(kù)? 下面大體說(shuō)明了搭建的流程。
數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)
用一幅圖來(lái)表示:
數(shù)據(jù)倉(cāng)庫(kù)的好處
數(shù)據(jù)倉(cāng)庫(kù)是一套體系。可以建在Oracle上,MySQL上,Hive上,MaxCompute上,具體建在哪個(gè)平臺(tái)根據(jù)數(shù)據(jù)量來(lái)定。對(duì)數(shù)據(jù)倉(cāng)庫(kù)來(lái)說(shuō),建在哪個(gè)平臺(tái)不重要,重要的是目的。
數(shù)據(jù)倉(cāng)庫(kù)的目的,是對(duì)組織的數(shù)據(jù)進(jìn)行統(tǒng)一的治理,歸納來(lái)講,就是:存、通、用。存:是指數(shù)據(jù)的統(tǒng)一存儲(chǔ)。數(shù)據(jù)放在一起了,meta才能在一起,便于后續(xù)的計(jì)算。
通:是指數(shù)據(jù)的梳理,集中式的數(shù)據(jù)存儲(chǔ)自然而然帶來(lái)數(shù)據(jù)的集中管理。便于企業(yè)梳理內(nèi)部的數(shù)據(jù),這個(gè)是最能刺痛規(guī)模比較大,業(yè)務(wù)比較繁雜的企業(yè)的。
用:就是在梳理好內(nèi)部數(shù)據(jù)資產(chǎn)后,可以看到那些數(shù)據(jù)可以做鏈接。那些業(yè)務(wù)可以合作。自己還缺少哪些數(shù)據(jù)。
存偏向于存儲(chǔ),通偏向于數(shù)據(jù)管理,用偏向于數(shù)據(jù)計(jì)算,也就是業(yè)務(wù)創(chuàng)新。
業(yè)務(wù)的野蠻生長(zhǎng)總會(huì)遇到瓶頸,這個(gè)時(shí)候就需要有內(nèi)在驅(qū)動(dòng)的業(yè)務(wù)創(chuàng)新。數(shù)據(jù)是指導(dǎo)組織二次創(chuàng)業(yè)的好依據(jù)。by 山水
主要的流程
簡(jiǎn)單的來(lái)說(shuō),就是包括:數(shù)據(jù)源、ODS、DW(DM)、報(bào)告這幾部分。
主要有這么幾個(gè)流程:數(shù)據(jù)源到ODS,需要考慮:數(shù)據(jù)源的平臺(tái)有哪些,比如Oracle,MySQL,文本文件,每個(gè)平臺(tái)有哪些可用的同步工具
數(shù)據(jù)有哪些,數(shù)據(jù)字典有沒有
哪些表全量同步
哪些表增量同步,如何取增量數(shù)據(jù)
同步周期,按小時(shí),按天,按周,按月?
數(shù)據(jù)量評(píng)估:存量數(shù)據(jù)有多大,增量數(shù)據(jù)每天有多少
歷史保留多久
數(shù)據(jù)正確性校驗(yàn)
調(diào)度、監(jiān)控、報(bào)警
ODS到DW(DM),剛開始可以考慮建立數(shù)據(jù)集市(DM),待對(duì)數(shù)據(jù),對(duì)業(yè)務(wù)足夠理解,人足夠多的時(shí)候,考慮建立數(shù)據(jù)倉(cāng)庫(kù)(DW),需要考慮:熟悉數(shù)據(jù)字典,理解業(yè)務(wù),理解數(shù)據(jù)
事實(shí)表要建哪些
維度表要建哪些
更新周期,按小時(shí),按天,按周,按月?
數(shù)據(jù)量評(píng)估:存量數(shù)據(jù)有多大,增量數(shù)據(jù)每天有多少
歷史保留多久
驗(yàn)數(shù)
調(diào)度、監(jiān)控、報(bào)警
報(bào)告,這個(gè)是給業(yè)務(wù)、決策層看的,是體現(xiàn)價(jià)值的地方統(tǒng)計(jì)口徑的確定
驗(yàn)數(shù):驗(yàn)證數(shù)據(jù)是否正確
如何展示:是表格、圖形,還是大屏?
用到的工具
在建設(shè)數(shù)據(jù)倉(cāng)庫(kù)的時(shí)候,需要使用一系列的工具。數(shù)據(jù)源到ODSETL工具,比如kettle
ODS到DW(DM)SQL
報(bào)告報(bào)表平臺(tái)
整個(gè)流程通過 調(diào)度工具 串起來(lái)
調(diào)度工具需要解決:任務(wù)依賴
周期性執(zhí)行
監(jiān)控,報(bào)警
日志
后續(xù)的工作
迭代!
迭代!
迭代!
總結(jié)
以上是生活随笔為你收集整理的数仓dw怎么建_搭建数据仓库的流程简介的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 扫地机器人欠压检测电路_扫地机器人智能家
- 下一篇: oracle包写入程序失败_Oracle