数据仓库和数据挖掘复习
生活随笔
收集整理的這篇文章主要介紹了
数据仓库和数据挖掘复习
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
數據倉庫和數據挖掘復習
- 1. 名詞解釋
- 2. 數據倉庫概念
- 3. 挖掘關聯規則
- 4. 有監督學習(分類)
1. 名詞解釋
OLTP、OLAP、KDD、BI、ETL、CNN、RNN、GAN解釋;
| OLTP | On-Line Transaction Processing 聯機事務處理 | 記錄事務時的當前更新,插入和刪除 |
| OLAP | On-Line Analytical Processing 聯機分析處理 | 提取信息并進行分析以供決策 |
| KDD | Knowledge Discovery in Database 知識發現 | 從原始數據中提煉出有意義的知識 |
| BI | Business Intelligence 商業智能 | 用數據倉庫、OLAP、數據挖掘、進行數據分析以實現商業價值 |
| ETL | Extract, transform, load 抽取、轉換、裝載 | 將業務系統的數據經過抽取、清洗轉換之后加載到數據倉庫的過程 |
| CNN | Convolutional Neural Networks 卷積神經網絡 | 圖像識別 |
| RNN | Recurrent Neural Network 循環神經網絡 | 自然語言處理 |
| GAN | Generative Adversarial Networks 生成式對抗網絡 | 圖像生成 |
2. 數據倉庫概念
- 數據倉庫的特征
數據倉庫是面向主題的、集成的、時變的、非易失的數據集合,它用來支持管理部門的決策過程
- 數據倉庫模型
數據倉庫基于多維數據模型,以數據立方體的形式對數據進行觀察。 - 維度:address、item、time都可以被看作一個維度,直觀上來看維度是一個立方體的軸
- 維度成員:構成維度的基本單位,比如對于城市維,包含、溫哥華、紐約、芝加哥、三個維度成員
- 層次:比如對于時間維,可以分為年、月、日三個層次,也可以分為年、季度、月三個層次。
- 級別:級別組成層次,比如年、月、日分別是時間維的三個級別
- 度量:一個數值函數,可以對數據立方體空間中的每個點求值。
- 事實表:存放度量值的表,同時存放了維表得外鍵,所有分析所用得數據最終都來自事實表。
- 維表:對于維度的描述,每個維度對應一個或多個維表。
數據立方體
一個n維的數據的立方體稱為基本方體。給定一個維的集合,可以構造一個方體的格,每個都在不同的匯總級或不同的數據子集顯示數據,方體的格稱為數據立方體。0維方體存放最高層的匯總,稱為頂點方體;存放在最底層匯總的方體稱為基本方體。
多維數據模型的模式:
中間事實表(粉色是三個度量),四個維度表
維表被規范化成兩個新表
兩個事實表共享了time、item、location三個維表
度量函數分類
OLAP操作
- 數據倉庫的多層結構
| 數據庫或其他 | 數據倉庫 | OLAP服務器 | 數據挖掘 |
3. 挖掘關聯規則
基本概念
挖掘單維布爾關聯規則的Apriori算法
改進-基于頻繁模式樹的算法
多維關聯規則挖掘
4. 有監督學習(分類)
模型偏差與方差
區分模型和生成模型
決策樹
K-最近鄰分類(K-NN)
樸素貝葉斯分類器
極大后驗假設:選概率最大的類
神經網絡
幾種激活函數,隨時函數
凸集合凸函數凸優化、非凸優化
總結
以上是生活随笔為你收集整理的数据仓库和数据挖掘复习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Ubuntu运行坦克大战
- 下一篇: 《华为工作法》学习笔记