数仓dw怎么建_搭建数据仓库的流程简介
如何搭建一個數據倉庫? 下面大體說明了搭建的流程。
數據倉庫的結構
用一幅圖來表示:
數據倉庫的好處
數據倉庫是一套體系。可以建在Oracle上,MySQL上,Hive上,MaxCompute上,具體建在哪個平臺根據數據量來定。對數據倉庫來說,建在哪個平臺不重要,重要的是目的。
數據倉庫的目的,是對組織的數據進行統一的治理,歸納來講,就是:存、通、用。存:是指數據的統一存儲。數據放在一起了,meta才能在一起,便于后續的計算。
通:是指數據的梳理,集中式的數據存儲自然而然帶來數據的集中管理。便于企業梳理內部的數據,這個是最能刺痛規模比較大,業務比較繁雜的企業的。
用:就是在梳理好內部數據資產后,可以看到那些數據可以做鏈接。那些業務可以合作。自己還缺少哪些數據。
存偏向于存儲,通偏向于數據管理,用偏向于數據計算,也就是業務創新。
業務的野蠻生長總會遇到瓶頸,這個時候就需要有內在驅動的業務創新。數據是指導組織二次創業的好依據。by 山水
主要的流程
簡單的來說,就是包括:數據源、ODS、DW(DM)、報告這幾部分。
主要有這么幾個流程:數據源到ODS,需要考慮:數據源的平臺有哪些,比如Oracle,MySQL,文本文件,每個平臺有哪些可用的同步工具
數據有哪些,數據字典有沒有
哪些表全量同步
哪些表增量同步,如何取增量數據
同步周期,按小時,按天,按周,按月?
數據量評估:存量數據有多大,增量數據每天有多少
歷史保留多久
數據正確性校驗
調度、監控、報警
ODS到DW(DM),剛開始可以考慮建立數據集市(DM),待對數據,對業務足夠理解,人足夠多的時候,考慮建立數據倉庫(DW),需要考慮:熟悉數據字典,理解業務,理解數據
事實表要建哪些
維度表要建哪些
更新周期,按小時,按天,按周,按月?
數據量評估:存量數據有多大,增量數據每天有多少
歷史保留多久
驗數
調度、監控、報警
報告,這個是給業務、決策層看的,是體現價值的地方統計口徑的確定
驗數:驗證數據是否正確
如何展示:是表格、圖形,還是大屏?
用到的工具
在建設數據倉庫的時候,需要使用一系列的工具。數據源到ODSETL工具,比如kettle
ODS到DW(DM)SQL
報告報表平臺
整個流程通過 調度工具 串起來
調度工具需要解決:任務依賴
周期性執行
監控,報警
日志
后續的工作
迭代!
迭代!
迭代!
總結
以上是生活随笔為你收集整理的数仓dw怎么建_搭建数据仓库的流程简介的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 扫地机器人欠压检测电路_扫地机器人智能家
- 下一篇: oracle包写入程序失败_Oracle