日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

数据仓库与数据挖掘的OLAP技术----韩家炜教授的《数据挖掘概念与技术》学习笔记

發(fā)布時(shí)間:2023/12/20 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据仓库与数据挖掘的OLAP技术----韩家炜教授的《数据挖掘概念与技术》学习笔记 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的OLAP技術(shù)

1.數(shù)據(jù)倉(cāng)庫(kù)

??概念:數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、隨時(shí)間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門(mén)的決策過(guò)程.

??關(guān)鍵特征:

v?面向主題:圍繞一些主題;關(guān)注決策者的數(shù)據(jù)建模與分析,而不是集中于組織機(jī)構(gòu)的日常操作和事務(wù)處理(這是數(shù)據(jù)庫(kù)的任務(wù))。排除對(duì)于決策無(wú)用的數(shù)據(jù),提供特定主題的簡(jiǎn)明視圖。

v?數(shù)據(jù)集成:由異種數(shù)據(jù)源(關(guān)系數(shù)據(jù)庫(kù),一般文件,聯(lián)機(jī)事務(wù)處理記錄)集成構(gòu)成的;使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù)。

v?隨時(shí)間而變化:數(shù)據(jù)倉(cāng)庫(kù)的時(shí)間范圍比操作數(shù)據(jù)庫(kù)要長(zhǎng)的多,每一個(gè)關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時(shí)間元素。

v?數(shù)據(jù)不易丟失:數(shù)據(jù)是只讀的(除了初始轉(zhuǎn)載),不需要事務(wù)處理,恢復(fù),和并發(fā)控制。

??建立數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)集成,數(shù)據(jù)清理和數(shù)據(jù)統(tǒng)一

對(duì)于異種數(shù)據(jù)庫(kù)的集成,傳統(tǒng)的數(shù)據(jù)庫(kù)做法:包裝程序和集成程序?--》查詢(xún)驅(qū)動(dòng)

數(shù)據(jù)倉(cāng)庫(kù)做法:異種源的信息預(yù)先集成?--》更新驅(qū)動(dòng)

??操作數(shù)據(jù)庫(kù)系統(tǒng)(OLTP)與數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)(OLAP)的區(qū)別

特征

OLTP

OLAP

用戶(hù)和系統(tǒng)的面向性

顧客

市場(chǎng)

數(shù)據(jù)內(nèi)容

當(dāng)前詳細(xì)的數(shù)據(jù)

歷史匯總的數(shù)據(jù)

數(shù)據(jù)庫(kù)設(shè)計(jì)

ER模型,面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì)

星型。雪花模型和面向主題的數(shù)據(jù)庫(kù)設(shè)計(jì)

視圖

當(dāng)前的,企業(yè)內(nèi)部的數(shù)據(jù)

經(jīng)過(guò)演化的集成的數(shù)據(jù)

訪問(wèn)模式

事務(wù)操作

事務(wù)查詢(xún)

任務(wù)單位

簡(jiǎn)短的事務(wù)

復(fù)雜的查詢(xún)

數(shù)據(jù)訪問(wèn)量

數(shù)十個(gè)

數(shù)百萬(wàn)條

用戶(hù)數(shù)

數(shù)千個(gè)

數(shù)百個(gè)

DB規(guī)模

100M-數(shù)GB

100GB-數(shù)TB

優(yōu)先性

高性能,高可用性

高靈活,端點(diǎn)用戶(hù)自治

度量

事務(wù)吞吐量

查詢(xún)吞吐量,響應(yīng)時(shí)間

??數(shù)據(jù)倉(cāng)庫(kù)的存在價(jià)值

v?提高兩個(gè)系統(tǒng)的性能:操作數(shù)據(jù)庫(kù)是為已知的任務(wù)和負(fù)載設(shè)計(jì)的,數(shù)據(jù)倉(cāng)庫(kù)涉及大量數(shù)據(jù)在匯總級(jí)的計(jì)算,在操作數(shù)據(jù)庫(kù)上處理OLAP查詢(xún),可能大大降低操作人物的性能。

v?系統(tǒng)中數(shù)據(jù)的結(jié)構(gòu),內(nèi)容和用法都不相同:操作數(shù)據(jù)庫(kù)只維護(hù)詳細(xì)的原始數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)將一種源的數(shù)據(jù)統(tǒng)一,產(chǎn)生高質(zhì)量的,純凈的和集成的數(shù)據(jù)用于決策

?

2.多維數(shù)據(jù)模型

??基本概念:

v?數(shù)據(jù)方:允許以多維數(shù)據(jù)建模和觀察,由維和事實(shí)定義

v?維:記錄的視角或視點(diǎn),每個(gè)維都有一個(gè)表與之相關(guān)聯(lián),稱(chēng)為維表。

v?事實(shí)表:包括事實(shí)的名稱(chēng)或度量以及每個(gè)相關(guān)維表的關(guān)鍵字。

??數(shù)據(jù)庫(kù)模式:

v?星型模型:一個(gè)大的事實(shí)表+一組小的維表

?

v?雪花模型:對(duì)星型模型的維表進(jìn)行規(guī)范化,減少冗余

?

v?事實(shí)星座:多個(gè)事實(shí)表共享維表

?

??數(shù)據(jù)集市

數(shù)據(jù)倉(cāng)庫(kù)搜集了關(guān)于整個(gè)組織的主題信息,是企業(yè)范圍的,采用事實(shí)星座模式

數(shù)據(jù)集市是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)部門(mén)子集,針對(duì)選定主題,是部門(mén)范圍的,采用星型模式

??數(shù)據(jù)挖掘查詢(xún)語(yǔ)言(DMQL

v?原語(yǔ)定義:

立方體定義?(事實(shí)表)

define?cube?<cube_name>?[<dimension_list>]:?????????

????<measure_list>

維定義?(維表)

define?dimension?<dimension_name>?as?<attribute_or_subdimension_list>

v?實(shí)例(圖2.6事實(shí)星座模式用DMQL定義)

?

??度量

v?概念:數(shù)據(jù)方的度量是一個(gè)數(shù)值函數(shù),該函數(shù)可以對(duì)數(shù)據(jù)方的每一個(gè)點(diǎn)求值,通過(guò)對(duì)給定的各維-值對(duì)聚集數(shù)據(jù),計(jì)算該店的度量值。

v?分類(lèi)

2?分布的:將函數(shù)用于n個(gè)聚集值得到的結(jié)果,與將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣,則該函數(shù)可以用分布方式計(jì)算。如,count(),min(),?max(),?sum()

2?代數(shù)的:能夠由一個(gè)具有M個(gè)參數(shù)的代數(shù)函數(shù)計(jì)算,而每個(gè)參數(shù)都可以用一個(gè)分布聚集函數(shù)求得。如,avg()max()

2?整體的:不存在一個(gè)具有M個(gè)(其中,M是常數(shù))參數(shù)的代數(shù)函數(shù)進(jìn)行這一計(jì)算。如,rank(),median()

??概念分層

????定義一個(gè)映射序列,將底層概念到更一般的高層概念

v?模式分層

?

v?集合分組分層

?

??OLAP操作

v?上卷:沿概念分層向上攀升,或維規(guī)約

v?下鉆:沿概念分層向下,或引入新的維

v?切片和切換:在給定的數(shù)據(jù)方的一個(gè)維進(jìn)行選擇,導(dǎo)致一個(gè)子方

v?轉(zhuǎn)軸(旋轉(zhuǎn)):轉(zhuǎn)動(dòng)數(shù)據(jù)的視角,提供數(shù)據(jù)的替代表示

?

?

3.數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)

??三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu):

頂層:客戶(hù)(查詢(xún)/報(bào)告工具,分析工具,數(shù)據(jù)挖掘工具)

中間層:OLAP服務(wù)器(ROLAPMOLAP

底層:數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器

??數(shù)據(jù)倉(cāng)庫(kù)模型

v?企業(yè)倉(cāng)庫(kù):收集關(guān)于主題的所有信息,跨越整個(gè)組織

v?數(shù)據(jù)集市:數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集,范圍限于選定主題

v?虛擬倉(cāng)庫(kù):操作數(shù)據(jù)庫(kù)在視圖上的集合

??OLAP服務(wù)器類(lèi)型

v?ROLAP:中間服務(wù)器,介于關(guān)系后端服務(wù)器和用戶(hù)前端工具之間,使用關(guān)系或拓充關(guān)系DBMS存放并管理數(shù)據(jù)倉(cāng)庫(kù),而OLAP中間件支持其余部分。

v?MOLAP:基于數(shù)組的多維存儲(chǔ)引擎,支持?jǐn)?shù)據(jù)的多維視圖,將多維視圖直接映射到數(shù)據(jù)方數(shù)組結(jié)構(gòu),

v?HOLAP:較大的可規(guī)模性的ROLAP+快速運(yùn)算的MOLAP

v?特殊的SQL服務(wù)器

?

4.數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)

??數(shù)據(jù)方的有效計(jì)算

v?一個(gè)n維數(shù)據(jù)方的方體,

若每個(gè)維都沒(méi)有分層,則方體總數(shù)為:2^n

若每個(gè)維不止一層,則方體總數(shù)是

v?部分物化:方體選擇計(jì)算

v?多路數(shù)組聚集(例2.12)

??索引OLAP數(shù)據(jù)

位圖索引,連接索引,復(fù)合連接索引

??元數(shù)據(jù)

v?數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的描述:倉(cāng)庫(kù)模式,視圖,維,層次結(jié)構(gòu),導(dǎo)出數(shù)據(jù)的定義等

v?操作元數(shù)據(jù)

v?數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)

v?匯總用的算法

v?由操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)的映射

v?關(guān)于系統(tǒng)性能的數(shù)據(jù)

v?商務(wù)元數(shù)據(jù)

??數(shù)據(jù)倉(cāng)庫(kù)后端工具和實(shí)用數(shù)據(jù)

v?數(shù)據(jù)提取

v?數(shù)據(jù)清理

v?數(shù)據(jù)變換

v?裝入

v?刷新

?

5.數(shù)據(jù)方技術(shù)的進(jìn)一步發(fā)展

??發(fā)現(xiàn)驅(qū)動(dòng)的探查

預(yù)計(jì)算的度量指出數(shù)據(jù)例外,在所有的聚集級(jí)指導(dǎo)用戶(hù)的數(shù)據(jù)分析過(guò)程,我們稱(chēng)這種度量為例外指示符。例外是一個(gè)數(shù)據(jù)方單元值,基于某種統(tǒng)計(jì)模型,它顯著地不同于預(yù)計(jì)值。

?

?

6.由數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘

??數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)用:

v?信息處理:基本查詢(xún)和基本的統(tǒng)計(jì)分析

v?分析處理:支持基本的OLAP操作

v?數(shù)據(jù)挖掘:找出隱藏的模式和關(guān)聯(lián),構(gòu)造分析模型,進(jìn)行分類(lèi)和預(yù)測(cè)

??數(shù)據(jù)挖掘,信息處理,聯(lián)機(jī)數(shù)據(jù)分析

v?信息處理基于查詢(xún),可以發(fā)現(xiàn)有用的信息,直接反映存放在數(shù)據(jù)庫(kù)中的信息,或通過(guò)聚集函數(shù)可計(jì)算的信息;

v?OLAP是數(shù)據(jù)匯總,聚集工具,幫助簡(jiǎn)化數(shù)據(jù)分析;

v?數(shù)據(jù)挖掘是自動(dòng)發(fā)現(xiàn)隱藏在大量數(shù)據(jù)中的隱含模式和有趣只是。

總結(jié)

以上是生活随笔為你收集整理的数据仓库与数据挖掘的OLAP技术----韩家炜教授的《数据挖掘概念与技术》学习笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。