数据仓库与数据挖掘的OLAP技术----韩家炜教授的《数据挖掘概念与技术》学习笔记
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的OLAP技術(shù)
1.數(shù)據(jù)倉(cāng)庫(kù)
??概念:數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、隨時(shí)間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門(mén)的決策過(guò)程.
??關(guān)鍵特征:
v?面向主題:圍繞一些主題;關(guān)注決策者的數(shù)據(jù)建模與分析,而不是集中于組織機(jī)構(gòu)的日常操作和事務(wù)處理(這是數(shù)據(jù)庫(kù)的任務(wù))。排除對(duì)于決策無(wú)用的數(shù)據(jù),提供特定主題的簡(jiǎn)明視圖。
v?數(shù)據(jù)集成:由異種數(shù)據(jù)源(關(guān)系數(shù)據(jù)庫(kù),一般文件,聯(lián)機(jī)事務(wù)處理記錄)集成構(gòu)成的;使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù)。
v?隨時(shí)間而變化:數(shù)據(jù)倉(cāng)庫(kù)的時(shí)間范圍比操作數(shù)據(jù)庫(kù)要長(zhǎng)的多,每一個(gè)關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時(shí)間元素。
v?數(shù)據(jù)不易丟失:數(shù)據(jù)是只讀的(除了初始轉(zhuǎn)載),不需要事務(wù)處理,恢復(fù),和并發(fā)控制。
??建立數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)集成,數(shù)據(jù)清理和數(shù)據(jù)統(tǒng)一
對(duì)于異種數(shù)據(jù)庫(kù)的集成,傳統(tǒng)的數(shù)據(jù)庫(kù)做法:包裝程序和集成程序?--》查詢(xún)驅(qū)動(dòng)
數(shù)據(jù)倉(cāng)庫(kù)做法:異種源的信息預(yù)先集成?--》更新驅(qū)動(dòng)
??操作數(shù)據(jù)庫(kù)系統(tǒng)(OLTP)與數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)(OLAP)的區(qū)別
| 特征 | OLTP | OLAP |
| 用戶(hù)和系統(tǒng)的面向性 | 顧客 | 市場(chǎng) |
| 數(shù)據(jù)內(nèi)容 | 當(dāng)前詳細(xì)的數(shù)據(jù) | 歷史匯總的數(shù)據(jù) |
| 數(shù)據(jù)庫(kù)設(shè)計(jì) | ER模型,面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì) | 星型。雪花模型和面向主題的數(shù)據(jù)庫(kù)設(shè)計(jì) |
| 視圖 | 當(dāng)前的,企業(yè)內(nèi)部的數(shù)據(jù) | 經(jīng)過(guò)演化的集成的數(shù)據(jù) |
| 訪問(wèn)模式 | 事務(wù)操作 | 事務(wù)查詢(xún) |
| 任務(wù)單位 | 簡(jiǎn)短的事務(wù) | 復(fù)雜的查詢(xún) |
| 數(shù)據(jù)訪問(wèn)量 | 數(shù)十個(gè) | 數(shù)百萬(wàn)條 |
| 用戶(hù)數(shù) | 數(shù)千個(gè) | 數(shù)百個(gè) |
| DB規(guī)模 | 100M-數(shù)GB | 100GB-數(shù)TB |
| 優(yōu)先性 | 高性能,高可用性 | 高靈活,端點(diǎn)用戶(hù)自治 |
| 度量 | 事務(wù)吞吐量 | 查詢(xún)吞吐量,響應(yīng)時(shí)間 |
??數(shù)據(jù)倉(cāng)庫(kù)的存在價(jià)值
v?提高兩個(gè)系統(tǒng)的性能:操作數(shù)據(jù)庫(kù)是為已知的任務(wù)和負(fù)載設(shè)計(jì)的,數(shù)據(jù)倉(cāng)庫(kù)涉及大量數(shù)據(jù)在匯總級(jí)的計(jì)算,在操作數(shù)據(jù)庫(kù)上處理OLAP查詢(xún),可能大大降低操作人物的性能。
v?系統(tǒng)中數(shù)據(jù)的結(jié)構(gòu),內(nèi)容和用法都不相同:操作數(shù)據(jù)庫(kù)只維護(hù)詳細(xì)的原始數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)將一種源的數(shù)據(jù)統(tǒng)一,產(chǎn)生高質(zhì)量的,純凈的和集成的數(shù)據(jù)用于決策
?
2.多維數(shù)據(jù)模型
??基本概念:
v?數(shù)據(jù)方:允許以多維數(shù)據(jù)建模和觀察,由維和事實(shí)定義
v?維:記錄的視角或視點(diǎn),每個(gè)維都有一個(gè)表與之相關(guān)聯(lián),稱(chēng)為維表。
v?事實(shí)表:包括事實(shí)的名稱(chēng)或度量以及每個(gè)相關(guān)維表的關(guān)鍵字。
??數(shù)據(jù)庫(kù)模式:
v?星型模型:一個(gè)大的事實(shí)表+一組小的維表
?
v?雪花模型:對(duì)星型模型的維表進(jìn)行規(guī)范化,減少冗余
?
v?事實(shí)星座:多個(gè)事實(shí)表共享維表
?
??數(shù)據(jù)集市
數(shù)據(jù)倉(cāng)庫(kù)搜集了關(guān)于整個(gè)組織的主題信息,是企業(yè)范圍的,采用事實(shí)星座模式
數(shù)據(jù)集市是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)部門(mén)子集,針對(duì)選定主題,是部門(mén)范圍的,采用星型模式
??數(shù)據(jù)挖掘查詢(xún)語(yǔ)言(DMQL)
v?原語(yǔ)定義:
立方體定義?(事實(shí)表)
define?cube?<cube_name>?[<dimension_list>]:?????????
????<measure_list>
維定義?(維表)
define?dimension?<dimension_name>?as?(<attribute_or_subdimension_list>)
v?實(shí)例(圖2.6事實(shí)星座模式用DMQL定義)
?
??度量
v?概念:數(shù)據(jù)方的度量是一個(gè)數(shù)值函數(shù),該函數(shù)可以對(duì)數(shù)據(jù)方的每一個(gè)點(diǎn)求值,通過(guò)對(duì)給定的各維-值對(duì)聚集數(shù)據(jù),計(jì)算該店的度量值。
v?分類(lèi)
2?分布的:將函數(shù)用于n個(gè)聚集值得到的結(jié)果,與將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣,則該函數(shù)可以用分布方式計(jì)算。如,count(),min(),?max(),?sum()
2?代數(shù)的:能夠由一個(gè)具有M個(gè)參數(shù)的代數(shù)函數(shù)計(jì)算,而每個(gè)參數(shù)都可以用一個(gè)分布聚集函數(shù)求得。如,avg(),max()
2?整體的:不存在一個(gè)具有M個(gè)(其中,M是常數(shù))參數(shù)的代數(shù)函數(shù)進(jìn)行這一計(jì)算。如,rank(),median()
??概念分層
????定義一個(gè)映射序列,將底層概念到更一般的高層概念
v?模式分層
?
v?集合分組分層
?
??OLAP操作
v?上卷:沿概念分層向上攀升,或維規(guī)約
v?下鉆:沿概念分層向下,或引入新的維
v?切片和切換:在給定的數(shù)據(jù)方的一個(gè)維進(jìn)行選擇,導(dǎo)致一個(gè)子方
v?轉(zhuǎn)軸(旋轉(zhuǎn)):轉(zhuǎn)動(dòng)數(shù)據(jù)的視角,提供數(shù)據(jù)的替代表示
?
?
3.數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)
??三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu):
頂層:客戶(hù)(查詢(xún)/報(bào)告工具,分析工具,數(shù)據(jù)挖掘工具)
中間層:OLAP服務(wù)器(ROLAP,MOLAP)
底層:數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器
??數(shù)據(jù)倉(cāng)庫(kù)模型
v?企業(yè)倉(cāng)庫(kù):收集關(guān)于主題的所有信息,跨越整個(gè)組織
v?數(shù)據(jù)集市:數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集,范圍限于選定主題
v?虛擬倉(cāng)庫(kù):操作數(shù)據(jù)庫(kù)在視圖上的集合
??OLAP服務(wù)器類(lèi)型
v?ROLAP:中間服務(wù)器,介于關(guān)系后端服務(wù)器和用戶(hù)前端工具之間,使用關(guān)系或拓充關(guān)系DBMS存放并管理數(shù)據(jù)倉(cāng)庫(kù),而OLAP中間件支持其余部分。
v?MOLAP:基于數(shù)組的多維存儲(chǔ)引擎,支持?jǐn)?shù)據(jù)的多維視圖,將多維視圖直接映射到數(shù)據(jù)方數(shù)組結(jié)構(gòu),
v?HOLAP:較大的可規(guī)模性的ROLAP+快速運(yùn)算的MOLAP
v?特殊的SQL服務(wù)器
?
4.數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)
??數(shù)據(jù)方的有效計(jì)算
v?一個(gè)n維數(shù)據(jù)方的方體,
若每個(gè)維都沒(méi)有分層,則方體總數(shù)為:2^n
若每個(gè)維不止一層,則方體總數(shù)是
v?部分物化:方體選擇計(jì)算
v?多路數(shù)組聚集(例2.12)
??索引OLAP數(shù)據(jù)
位圖索引,連接索引,復(fù)合連接索引
??元數(shù)據(jù)
v?數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的描述:倉(cāng)庫(kù)模式,視圖,維,層次結(jié)構(gòu),導(dǎo)出數(shù)據(jù)的定義等
v?操作元數(shù)據(jù)
v?數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)
v?匯總用的算法
v?由操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)的映射
v?關(guān)于系統(tǒng)性能的數(shù)據(jù)
v?商務(wù)元數(shù)據(jù)
??數(shù)據(jù)倉(cāng)庫(kù)后端工具和實(shí)用數(shù)據(jù)
v?數(shù)據(jù)提取
v?數(shù)據(jù)清理
v?數(shù)據(jù)變換
v?裝入
v?刷新
?
5.數(shù)據(jù)方技術(shù)的進(jìn)一步發(fā)展
??發(fā)現(xiàn)驅(qū)動(dòng)的探查
預(yù)計(jì)算的度量指出數(shù)據(jù)例外,在所有的聚集級(jí)指導(dǎo)用戶(hù)的數(shù)據(jù)分析過(guò)程,我們稱(chēng)這種度量為例外指示符。例外是一個(gè)數(shù)據(jù)方單元值,基于某種統(tǒng)計(jì)模型,它顯著地不同于預(yù)計(jì)值。
?
?
6.由數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘
??數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)用:
v?信息處理:基本查詢(xún)和基本的統(tǒng)計(jì)分析
v?分析處理:支持基本的OLAP操作
v?數(shù)據(jù)挖掘:找出隱藏的模式和關(guān)聯(lián),構(gòu)造分析模型,進(jìn)行分類(lèi)和預(yù)測(cè)
??數(shù)據(jù)挖掘,信息處理,聯(lián)機(jī)數(shù)據(jù)分析
v?信息處理基于查詢(xún),可以發(fā)現(xiàn)有用的信息,直接反映存放在數(shù)據(jù)庫(kù)中的信息,或通過(guò)聚集函數(shù)可計(jì)算的信息;
v?OLAP是數(shù)據(jù)匯總,聚集工具,幫助簡(jiǎn)化數(shù)據(jù)分析;
v?數(shù)據(jù)挖掘是自動(dòng)發(fā)現(xiàn)隱藏在大量數(shù)據(jù)中的隱含模式和有趣只是。
總結(jié)
以上是生活随笔為你收集整理的数据仓库与数据挖掘的OLAP技术----韩家炜教授的《数据挖掘概念与技术》学习笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 高等数学(第七版)同济大学 习题3-5
- 下一篇: SRTP参数及数据包处理过程