DB、ETL、DW、OLAP、DM、BI关系结构图
在此大概用口水話簡單敘述一下他們幾個概念:
(1)DB/Database/數(shù)據(jù)庫——這里一般指的就是OLTP數(shù)據(jù)庫,在線事物數(shù)據(jù)庫,用來支持生產(chǎn)的,比如超市的買賣系統(tǒng)。DB保留的是數(shù)據(jù)信息的最新狀態(tài),只有一個狀態(tài)!比如,每天早上起床洗臉照鏡子,看到的就是當時的狀態(tài),至于之前的每天的狀態(tài),不會出現(xiàn)的你的眼前,這個眼前就是db。
(2)DW/Data Warehouse/數(shù)據(jù)倉庫——這里保存的是DB中的不同時間點的狀態(tài),比如,每天早上洗完照鏡子時,都拍一張照片,天天這樣,這些照片放入到一個相冊中,之后就可以查看每一天的狀態(tài)了,這個相冊就是數(shù)據(jù)倉庫,他保存的是數(shù)據(jù)在不同時間點的狀態(tài),對同一個數(shù)據(jù)信息,保留不同時間點的狀態(tài),就便于我們做統(tǒng)計分析了。
(3)ETL/Extraction-Transformation-Loading——用于完成DB到DW的數(shù)據(jù)轉存,它將DB中的某一個時間點的狀態(tài),“抽取”出來,根據(jù)DW的存儲模型要求,“轉換”一下數(shù)據(jù)格式,然后再“加載”到DW的一個過程,這里需要強調(diào)的是,DB的模型是ER模型,遵從范式化設計原則,而DW的數(shù)據(jù)模型是雪花型結構或者星型結構,用的是面向主題,面向問題的設計思路,所以DB和DW的模型結構不同,需要進行轉換。?
(4)OLAP——在線分析系統(tǒng),簡單說就是報表系統(tǒng),銷售報表,統(tǒng)計報表,等等,這個大家都熟悉,當然,OLAP的統(tǒng)計要更復雜更豐富一些,比如切面,鉆取等等。?
(5)DM/Data Mining/數(shù)據(jù)挖掘——這個挖掘,不是簡單的統(tǒng)計了,他是根據(jù)概率論的或者其他的統(tǒng)計學原理,將DW中的大數(shù)據(jù)量進行分析,找出我們不能直觀發(fā)現(xiàn)的規(guī)律,比如,如果我們每天早上照相,量身材的時候,還記錄下頭一天吃的東西,黃瓜,豬腿,烤鴨,以及心情,如果記錄上10年,形成了3650天的相貌和飲食心情的數(shù)據(jù),我們每個人都記錄,有20萬人記錄了,那么,我們也許通過這些記錄,可以分析出,身材相貌和飲食的客觀規(guī)律;再說一個典型的實例,就是英國的超市,在積累了大量數(shù)據(jù)之后,對數(shù)據(jù)分析挖掘之后,得到了一個規(guī)律:將小孩的尿布和啤酒放在一起,銷量會更好——業(yè)務專家在得到該結論之后,仔細分析,知道了原因,因為英國男人喜歡看足球的多,老婆把小孩介紹男人看管,小孩尿尿需要尿布,而男人看足球喜歡喝酒,所以兩樣商品有密切的關系,放在一起銷售會更好!
?
(6)BI/Business Intelligence/商業(yè)智能——領導,決策者,在獲取了OLAP的統(tǒng)計信息,和DM得到的科學規(guī)律之后,對生產(chǎn)進行適當?shù)恼{(diào)整,比如,命令超市人員將啤酒喝尿布放在一起銷售,這就反作用于DB修改存貨數(shù)據(jù)了——這就是整個BI的作用!
整體結構
在具體分析數(shù)據(jù)倉庫之前先看下一下數(shù)據(jù)中心的整體架構以及數(shù)據(jù)流向
?
數(shù)據(jù)中心整體架構.png
- DB 是現(xiàn)有的數(shù)據(jù)來源,可以為mysql、SQLserver、文件日志等,為數(shù)據(jù)倉庫提供數(shù)據(jù)來源的一般存在于現(xiàn)有的業(yè)務系統(tǒng)之中。
- ETL的是 Extract-Transform-Load 的縮寫,用來描述將數(shù)據(jù)從來源遷移到目標的幾個過程:
- Extract,數(shù)據(jù)抽取,也就是把數(shù)據(jù)從數(shù)據(jù)源讀出來。
- Transform,數(shù)據(jù)轉換,把原始數(shù)據(jù)轉換成期望的格式和維度。如果用在數(shù)據(jù)倉庫的場景下,Transform也包含數(shù)據(jù)清洗,清洗掉噪音數(shù)據(jù)。
- Load 數(shù)據(jù)加載,把處理后的數(shù)據(jù)加載到目標處,比如數(shù)據(jù)倉庫。
- ODS(Operational Data Store) 操作性數(shù)據(jù),是作為數(shù)據(jù)庫到數(shù)據(jù)倉庫的一種過渡,ODS的數(shù)據(jù)結構一般與數(shù)據(jù)來源保持一致,便于減少ETL的工作復雜性,而且ODS的數(shù)據(jù)周期一般比較短。ODS的數(shù)據(jù)最終流入DW
+DW (Data Warehouse)數(shù)據(jù)倉庫,是數(shù)據(jù)的歸宿,這里保持這所有的從ODS到來的數(shù)據(jù),并長期報錯,而且這些數(shù)據(jù)不會被修改。 - DM(Data Mart) 數(shù)據(jù)集市,為了特定的應用目的或應用范圍,而從數(shù)據(jù)倉庫中獨立出來的一部分數(shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)。面向應用。
數(shù)據(jù)倉庫
數(shù)據(jù)倉庫(Data Warehouse) 簡稱DW,顧名思義,數(shù)據(jù)倉庫是一個很大的數(shù)據(jù)存儲集合,出于企業(yè)的分析性報告和決策支持目的而創(chuàng)建,對多樣的業(yè)務數(shù)據(jù)進行篩選與整合。它為企業(yè)提供一定的BI(商業(yè)智能)能力,指導業(yè)務流程改進、監(jiān)視時間、成本、質(zhì)量以及控制。
數(shù)據(jù)倉庫存儲是一個面向主題(移動的用戶分析也可做為一個主題)的,反映歷史變化數(shù)據(jù),用于支撐管理決策。
特征:
- 效率足夠高,要對進入的數(shù)據(jù)快速處理。
- 數(shù)據(jù)質(zhì)量高,數(shù)據(jù)倉庫是提供很多決策需要的數(shù)據(jù)支撐,DW的數(shù)據(jù)應該是唯一的具有權威性的數(shù)據(jù),企業(yè)的所有系統(tǒng)只能從DW取數(shù)據(jù),所以需要定期對DW里面的數(shù)據(jù)進行質(zhì)量審,保證DW里邊數(shù)據(jù)的唯一、權威、準確性。
- 擴展性,企業(yè)業(yè)務擴展和降低企業(yè)建設數(shù)據(jù)倉庫的成本考慮
- 面向主題,數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織的,每一個主題對應一個宏觀的分析領域,數(shù)據(jù)倉庫排除對決策無用的數(shù)據(jù),提供特定主題的簡明視圖。
- 數(shù)據(jù)倉庫主要提供查詢服務,并且需要查詢能夠及時響應
- DW的數(shù)據(jù)也是只允許增加不允許刪除和修改,數(shù)據(jù)倉庫主要是提供查詢服務,刪除和修改在分布式系統(tǒng).
操作性數(shù)據(jù)
操作性數(shù)據(jù)(Operational Data Store) 簡稱ODS,作為數(shù)據(jù)庫到數(shù)據(jù)倉庫的一種過渡形式,與數(shù)據(jù)倉庫在物理結構上不同。ODS存儲的是當前的數(shù)據(jù)情況,給使用者提供當前的狀態(tài),提供即時性的、操作性的、集成的全體信息的需求。ODS作為數(shù)據(jù)庫到數(shù)據(jù)倉庫的一種過渡形式,能提供高性能的響應時間,ODS設計采用混合設計方式。ODS中的數(shù)據(jù)是"實時值",而數(shù)據(jù)倉庫的數(shù)據(jù)卻是"歷史值",一般ODS中儲存的數(shù)據(jù)不超過一個月,而數(shù)據(jù)倉庫為10年或更多。
特征:
- ODS直接存放從業(yè)務抽取過來的數(shù)據(jù),這些數(shù)據(jù)從結構和數(shù)據(jù)上與業(yè)務系統(tǒng)保持一致,降低了數(shù)據(jù)抽取的復雜性。
- 轉移一部分業(yè)務系統(tǒng)的細節(jié)查詢功能,因為ODS存放的數(shù)據(jù)與業(yè)務系統(tǒng)相同,原來有業(yè)務系統(tǒng)產(chǎn)生的報表,現(xiàn)在可以從ODS中產(chǎn)生。
- 完成數(shù)據(jù)倉庫中不能完成的功能,ODS存放的是明細數(shù)據(jù),數(shù)據(jù)倉庫DW或數(shù)據(jù)集市DM都存放的是匯聚數(shù)據(jù),ODS提供查詢明細的功能。
- ODS數(shù)據(jù)只能增加不能修改,而且數(shù)據(jù)都是業(yè)務系統(tǒng)原樣拷貝,所以可能存在數(shù)據(jù)沖突的可能,解決辦法是為每一條數(shù)據(jù)增加一個時間版本來區(qū)分相同的數(shù)據(jù)。
數(shù)據(jù)集市
數(shù)據(jù)集市(Data Mart)簡稱DM,是為了特定的應用目的或應用范圍,而從數(shù)據(jù)倉庫中獨立出來的一部分數(shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)(subjectarea)。在數(shù)據(jù)倉庫的實施過程中往往可以從一個部門的數(shù)據(jù)集市著手,以后再用幾個數(shù)據(jù)集市組成一個完整的數(shù)據(jù)倉庫。需要注意的就是在實施不同的數(shù)據(jù)集市時,同一含義的字段定義一定要相容,這樣再以后實施數(shù)據(jù)倉庫時才不會造成大麻煩。
數(shù)據(jù)集市,以某個業(yè)務應用為出發(fā)點而建設的局部DW,DW只關心自己需要的數(shù)據(jù),不會全盤考慮企業(yè)整體的數(shù)據(jù)架構和應用,每個應用有自己的DM
特征:
- DM結構清洗,針對性強,擴展性好,因為DM僅僅是單對一個領域而建立,容易維護修改
- DM建設任務繁重,公司有眾多業(yè)務,每個業(yè)務單獨建立表。
- DM的建立更多的消耗存儲空間,單獨一個DM可能數(shù)據(jù)量不大,但是企業(yè)所有領域都建立DM這個數(shù)據(jù)量就會增加多倍。
?
?
?
?
?
?
?
Power BI是微軟最新的商業(yè)智能(BI)概念,它包含了一系列的組件和工具。話不多說,先上圖:
總結
以上是生活随笔為你收集整理的DB、ETL、DW、OLAP、DM、BI关系结构图的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 31省市养老金上调全部到位,西藏一月最少
- 下一篇: 【转】SharePoint 中的编程模型