三十三、数据仓库的概述
生活随笔
收集整理的這篇文章主要介紹了
三十三、数据仓库的概述
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1. 數據倉庫的概述
1.1 數據倉庫的基本內容
數據倉庫泛化、合并多維空間的數據。構造數據倉庫涉及數據清理、數據集成和數據變換,可以看作數據挖掘的一個重要預處理步驟。此外,數據倉庫提供聯機分析處理(OLAP)工具,用于各種粒度的多維數據的交互分析,有利于有效的數據泛化和數據挖掘。數據倉庫的基本內容包括:
- 什么是數據倉庫
- 操作數據庫與數據倉庫的區別
- 分離的數據倉庫
- 數據倉庫模型
- 數據提取變換和轉入
- 元數據庫
2. 什么是數據倉庫?
2.1 數據倉庫的基本概念
- 數據倉庫已有多種定義方式,很難給出一種嚴格的定義。通俗地講,數據倉庫是一種數據庫,它與單位的操作數據庫分別維護。數據倉庫系統允許將各種應用集成在一起,為統一的歷史數據分析提供堅實的平臺,對信息處理提供支持。
2.2 數據倉庫的關鍵特征
數據倉庫可以看成是一個面向主題的、集成的、時變的、非易失的數據集合,支持管理的決策過程。
- 面向主題的:數據倉庫圍繞一些重要主題,如果顧客、供應商、產品和銷售組織。
- 集成的:通常,構造數據倉庫是將多個異構數據源,如關系數據庫、一般文件和聯機事務處理記錄集成在一起。
- 時變的:數據存儲從歷史的角度提供信息。數據倉庫種的關鍵結構都隱式或顯示的包含時間元素。
- 非易失的:數據倉庫總是物理地分離存放數據,這些數據源于操作環境下的一個用數據。
3 數據的倉庫的基本內容之二
3.1 操作數據庫與數據倉庫的區別
- 聯機操作數據庫(OLTP)的主要任務式執行聯機事務和查詢處理。
- 用不同的格式組織和提供數據,以便滿足不同用戶的形形色色的需求,這種系統稱做聯機分析處理(OLAP)。
3.2 分離的數據倉庫
- 操作數據庫中存放了大量的數據。為什么不直接在這種數據庫上進行聯機分析處理,而是另外花費時間和資源去構造分離的數據倉庫?
- 分離的主要原因是提高兩個系統的性能。
- 數據倉庫的查詢通常是復雜的,涉及大量數據在匯總級的計算,可能需要特殊的基于多維視圖的數據
- 織、存取方法和實現方法。在操作數據庫上處理OLAP查詢,可能會大大降低操作任務的性能。
- 數據倉庫與操作數據庫分離式由于這兩種系統的中的數據結構、內容和用法都不相同。
數據倉庫的三層體系結構
- 底層是倉庫數據庫服務器:通常是一個關系數據庫系統。
- 中間層是OLAP服務器
- 頂層是前端客戶層,它包括查詢和報告工具,分析工具/或數據挖掘工具
4 數據倉庫的基本內容之三
4.1 數據倉庫的模型
從結構的角度看,有三種數據倉庫模型:企業倉庫、數據集市和虛擬倉庫。
- 企業倉庫:企業倉庫搜集了關于主題的所有信息,跨越整個企業。它提供了企業范圍內的數據集成,通常來自一個或多個操作系統數據庫系統或外部信息提供者,并且是多功能的。
- 數據集市:數據集市包含企業范圍數據的一個子集,對于特定的用戶群是有用的。例如銷售數據集可能限定其主題為顧客、商品和銷售。
- 虛擬倉庫:虛擬倉庫是操作數據庫上視圖的集合。為了有效地的處理查詢,只有一些可能的匯總視圖被物化。
4.2 數據提取、變換和裝入
- 數據提取:通常由多個異構的外部數據源收集數據。
- 數據清理:檢測數據中的錯誤,可能時并訂正它們。
- 數據變換:將數據由遺產或宿主格式轉換成數據倉庫格式。
- 裝入:排序、匯總、合并、計算視圖、檢查完整性,并建立索引和劃分。
- 刷新:傳播由數據源到數據倉庫的更新。
4.3 元數據庫
- 元數據時定義倉庫對象的數據。元數據庫在數據倉庫體系結構的底層。-
- 元數據庫應當包括以下內容:
- 數據倉庫結構的描述:包括倉庫模式、視圖、維、分層結構等
- 操作元數據:數據信息、數據流通、管理信息
- 用于匯總的算法:包括度量和維定義算法
- 由操作環境到數據倉庫的映射
- 關于系統性能的數據
庫模式、視圖、維、分層結構等 - 操作元數據:數據信息、數據流通、管理信息
- 用于匯總的算法:包括度量和維定義算法
- 由操作環境到數據倉庫的映射
- 關于系統性能的數據
總結
以上是生活随笔為你收集整理的三十三、数据仓库的概述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 三十二、电子商务服务推荐模型构建
- 下一篇: 三十四、数据仓库的建模