数据仓库与数据挖掘实践期末复习总结
生活随笔
收集整理的這篇文章主要介紹了
数据仓库与数据挖掘实践期末复习总结
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
本篇內容為筆者數據倉庫挖掘與實踐的期末復習提綱范圍,提綱標號為《數據倉庫挖掘實踐》的部分目錄。
文章目錄
- 1.1.2 什么是數據倉庫
- 定義
- 特征(4個)
- 1.2.1 數據倉庫系統的組成
- 定義
- 組成
- 1.2.2 ETL
- 1.4 數據倉庫與操作型數據庫的關系
- 操作型數據和分析型數據的區別
- 數據倉庫與操作型數據庫的對比
- 2.3.1 多維數據模型及相關概念
- 2.3.4 幾種常見的基于關系數據庫的多維數據模型
- 3.1 OLAP概述
- 3.2 OLAP的多維數據模型
- 3.3.1 數據立方體的有效計算
- 5.1 關聯分析的概念
- 5.2 Aprior算法
- 7.1 分類過程
- 7.3 決策樹分類算法
- 7.4 樸素貝葉斯分類算法
- 10.1 聚類概述
- 10.2 K-means算法
- 10.3.1 層級聚類算法概述
- 10.3.2 DIANA算法和AGNES算法
1.1.2 什么是數據倉庫
定義
數據倉庫是一個 面向主題的、穩定的、集成的、隨時間變化的 數據的集合。
特征(4個)
主題是指用戶使用數據倉庫進行決策時所關心的重點領域。從數據組織的角度看,主題是一些數據的集合。
面向主體組織的數據具有以下特點:
A. 各個主題有完整、一致的內容一邊在此基礎上進行分析處理
B. 主題之間有重疊的內容,反應主題之間的聯系。重疊是邏輯上的,不是物理上的。
C. 個主題的綜合方式存在不同
D. 主題域應該具有獨立性和完備性
數據倉庫中存儲的數據一般從企業原來已經建立的數據庫系統中提取出來,但并不是原有數據的簡單復制,而是經過了抽取、篩選、清理、轉換、綜合等工作。
數據倉庫在某個時間段來看是不變的
定期從操作型數據庫系統之接收新的數據內容
1.2.1 數據倉庫系統的組成
定義
數據倉庫系統以數據倉庫為核心,將各種應用系統集成在一起,為統一的歷史數據分析提供平臺。通過數據分析與報表模塊和分析工具OLAP(聯機分析處理)、決策分析、數據挖掘完成對信息的提取,滿足決策需要。
組成
數據倉庫系統通常指的是一個數據庫環境
由以下3部分組成:
包含以下4個內容:
A. 數據倉庫:整個數據倉庫環境的核心,是數據存放的地方和提供對數據檢索的支持。
B. 抽取工具:把數據從各種各樣的環境中提取出來,進行必要的轉化、整理,在存放到數據倉庫內。
C. 元數據:關于數據的數據,位于數據倉庫的上層,是描述數據倉庫內數據的結構、位置和建立方法的數據。
D. 數據集市:面向某個主題而從數據倉庫中劃分出來的
OLAP服務是對存儲在數據倉庫中的數據提供分析的一種軟件。
數據報表、數據分析和數據挖掘為用戶產生的各種數據分析和匯總報表,以及數據挖掘結果。
1.2.2 ETL
ETL:抽取、轉換、裝載。簡稱為數據抽取,按照統一的規則集成并提高數據的價值,是完成數據從數據源向目標數據倉庫轉化的過程。
將數據從各種原始的業務系統中抽取出來
按照原先設計好的規則將抽取的數據進行轉換,是本來異構的數據格式統一起來
將轉換完的數據按計劃增量或全部導入到數據倉庫中
1.4 數據倉庫與操作型數據庫的關系
操作型數據和分析型數據的區別
| 細節的 | 綜合的 |
| 存取瞬間 | 歷史數據 |
| 可更新 | 不可更新 |
| 事先可知操作需求 | 操作需求事先不可知 |
| 符合軟件開發的生命周期 | 完全不同的生命周期 |
| 對性能要求較高 | 對性能要求較為寬松 |
| 某一個時刻操作一個單元 | 某一個時刻操作一個集合 |
| 事務驅動 | 分析驅動 |
| 細節的 | 一次操作的數據量較大 |
數據倉庫與操作型數據庫的對比
| 面向主題 | 面向應用 |
| 容量巨大 | 容量相對較小 |
| 數據是綜合的或提煉的 | 數據是詳細的 |
| 保存歷史的數據 | 保存當前的數據 |
| 通常數據是不可更新的 | 數據是可更新的 |
| 操作需求是臨時決定的 | 操作需求是事先可知的 |
| 一個操作存取一個數據集合 | 一個操作存取一條記錄 |
| 數據經常冗余 | 數據非冗余 |
| 操作相對不頻繁 | 操作較頻繁 |
| 所查詢的是經過加工的數據 | 所查詢的是原始數據 |
| 支持決策分析 | 支持事務處理 |
| 決策分析需要歷史數據 | 事務處理需要當前數據 |
| 需要復雜計算 | 鮮有復雜計算 |
| 服務對象為企業高層決策人員 | 服務對象為企業業務處理方面的人員 |
2.3.1 多維數據模型及相關概念
指數據倉庫中的數據單元的詳細程度和級別,數據越詳細,粒度越小,級別越低。
簡稱“維”,是指人們觀察事物的特定角度,概念上類似于關系表的屬性
一個維是通過一組屬性來描述的,維的一個取值稱為該維的一個成員
同一維度可以存在細節程度不同的各個值,可以將粒度大的值映射到粒度小的值上,這樣構成為層次
度量是數據倉庫中的信息單元,即多維空間中的一個單元,用以存放數據,也稱為事實。
2.3.4 幾種常見的基于關系數據庫的多維數據模型
三種模式:星形模式,雪花模式,事實星座模式
星形模式是最基本的模式,一個星形模式有多個維表,但只能存在一個事實表。在星形模式基礎上,構造維表的層結構(維表的規范化),得到雪花模式。如果打破星形模式只有一個事實表的限制,且這些事實表共享部分或全部已有維表信息,則稱為事實星座模式。
3.1 OLAP概述
3.2 OLAP的多維數據模型
3.3.1 數據立方體的有效計算
5.1 關聯分析的概念
5.2 Aprior算法
7.1 分類過程
7.3 決策樹分類算法
7.4 樸素貝葉斯分類算法
10.1 聚類概述
10.2 K-means算法
10.3.1 層級聚類算法概述
10.3.2 DIANA算法和AGNES算法
總結
以上是生活随笔為你收集整理的数据仓库与数据挖掘实践期末复习总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Vue后台管理系统项目总结
- 下一篇: 计算机数控入门,数控基础知识课件