数据仓库与联机分析处理技术
計算機系統中存在兩類不同數據處理工作:操作型處理和分析型處理,也稱聯機事務處理(OLTP)和聯機分析處理(OLAP)
操作型也叫事務處理,通常是對一個或一組記錄的查詢和修改。
分析型指對數據的查詢和分析操作,通常是對海量數據查詢和分析,要訪問的數據量很大。
因此誕生了DW數據倉庫,數據倉庫將操作型和分析型區分開來。傳統的數據庫技術為操作型處理服務,DW為分析型處理服務。
?
(一)數據倉庫技術
數據倉庫是為了構建新的分析處理環境而出現的一種數據存儲和組織技術。
定義:DW是一個用以更好地支持企業決策分析處理的、面向主題的、集成的、不可更新的、隨時間不斷變化的數據集合。
1 DW的基本特征
(1)主題與面向主題
數據倉庫中數據是面向主題進行組織的。主題是在較高層次上將企業信息系統中的數據綜合、歸類并進行分析利用的抽象。主題是一個在較高層次上對數據的抽象,使得面向主題的數據組織可以獨立于數據的處理邏輯。
(2)DW是集成的
DW中的數據是從原有的分散數據庫數據中抽取出的,因此在進入數據倉庫之前必然要經過加工與繼承,統一與綜合。
(3)DW是不可更新的
DW存儲的是相當長的一段時間內的歷史數據,是不同時點數據庫快照的集合,以及基于這些快照進行統計、綜合和重組的導出數據,不是聯機處理的數據。
DW主要供決策分析之用,所涉及的數據操作主要是數據查詢,一般不進行修改操作。
OLTP數據庫中數據經過抽取(Extracting)、清洗(Cleaning)、轉換(Transformation)和裝載(loading)存放到DW中(過程簡記為ECTL)
(4)DW是隨時間變化的
不可更新是指用戶進行分析時不進行數據更新的操作。DW中數據隨時間變化不斷變化。
2 DW中的數據組織
DW中的數據分為多個級別:早起細節級、當前細節級、輕度綜合級和高度綜合級。源數據經過ECTL轉入數據倉庫,首先進入當前細節級,根據具體的分析處理需求再進行綜合,進而成為輕度綜合級和高度綜合級。隨著時間的推移,早期數據轉入早期細節級。多重級別的數據組織可以大大提高聯機分析的效率。
3 ? 數據倉庫系統的體系結構
數據倉庫的后臺工具包括數據抽取、清洗、轉換、裝載和維護工具
數據倉庫服務器相當于數據庫系統中的數據庫管理系統,負責管理數據倉庫中數據的存儲管理和數據存取,并給OLAP服務器和前臺工具提供存取接口。
OLAP服務器透明地為前臺工具和用戶提供多維數據視圖
前臺工具包括查詢報表工具,多維分析工具,數據挖掘工具和分析結果可視化工具等。
(二)聯機分析處理技術
聯機分析處理是以海量數據為基礎的復雜分析技術。
1?? 多維數據模型
多維數據模型是數據分析時用戶的數據視圖,是面向分析的數據模型,用于給分析人員提供多種觀察的視角和面向分析的操作。此模型的數據結構可以用一個多維數組表示:(維1,維2,...維n,度量值);一般地,多維數組用多維立方體CUBE表示。
2?? 多維分析操作
常見的多維分析操作有 切片(slice)、切換(dice)、旋轉(pivot)、向上綜合(roll-up)、向下鉆取(drill-down)
3?? 聯機分析處理的實現方式
聯機分析處理器一般按照多維數據模型的不同實現方式,分MOLAP結構,ROLAP結構,HOLAP結構。
MOLAP:以多維立方體CUBE組織數據,多維數組存儲數據,支持直接對多維數據進程操作。
ROLAP:用關系數據庫管理系統來管理多維數據,關系表組織存儲多維數據。將多維立方體上的操作映射為標準的關系操作。ROLAP將多維立方體結構劃分為兩類表,一類事實表,描述存儲多維立方體的度量值和各個維的碼值;維表描述維信息。ROLAP用“星型模式”和“雪片模式”表示多維數據模型。
星形模式:一個事實表和一組維表組成。
雪片模式:將星形模式的維表按層次進一步細化,形成雪片模式。
(三)數據挖掘技術
1?? 數據挖掘的概念
數據挖掘:是從大量數據中發現并提取隱藏在內的,人們事先不知道的但有可能有用的信息和知識的一種新技術。
數據挖掘的目的:幫助決策者尋找數據間潛在的關聯,發現經營者忽略的要素,這些要素對預測趨勢,決策行為也許有用。
2?? 數據挖掘和傳統分析方法的區別
傳統的決策支持系統通常在某個假設下通過對數據的查詢分析驗證這個假設。數據挖掘則是在沒有明確假設的前提下去挖掘信息,發現知識。
數據挖掘技術基于大量來自實際應用的數據,進行自動分析,歸納整理,從中發掘出數據間潛在的模式或產生聯想。
數據挖掘所得到的信息具有事先未知,有效和可實用三個特征。
事先未知是指發掘出那些沒有預料到的,靠人的知覺無法發現的知識。
3?? 數據挖掘的數據源
數據挖掘的數據源有兩種:一種來自于數據倉庫,一種直接從數據庫而來。實際的應用數據往往不完全、有噪聲、模糊、隨機,需要進行預處理。
數據倉庫建設花費巨大,如果只是為了數據挖掘,可以把一個或幾個聯機分析處理數據庫導入一個只讀的數據庫中,然后進程挖掘。挖掘的結果要進行評價才能成為有用的信息,按結果不停,可能會進行重新分析。
4?? 數據挖掘的功能
(1)概念描述。歸納總結出數據的某些特征
(2)關聯分析。兩個或多個變量的取值之間存在某種規律性,稱為關聯。關聯包括相關關聯和因果關聯。
(3)分類和預測。找到一定的函數或模型來描述和區分數據類之間的區別,用模型和函數對未來進行預測。數據類是預先知道的。分類的結果表示為決策樹、分類規則或神經網絡。
(4)聚類。將數據分為多個類,使類內部數據之間的差異最小,類之間的差異最大。聚類前并不知道類的具體個數。聚類技術報刊款傳統的模式識別方法和數據分類學等
(5)孤立點的檢測。孤立點是數據中的整體表現行為不一致的數據集合。
(6)趨勢的演變分析。描述行為隨著時間變化的對象所遵循的規律或趨勢。
進行挖掘前首先明確挖掘的任務,然后根據任務對所選擇的數據進行預處理,再選擇算法進行挖掘;最后對挖掘出來的模式進行評價,削減其中重復的部分,將最終結果展現出來。
?
?
總結
以上是生活随笔為你收集整理的数据仓库与联机分析处理技术的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 操作系统(4) -- 文件管理
- 下一篇: 吴恩达机器学习 -- 多变量线性回归