日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据仓库与数据挖掘的OLAP技术----韩家炜教授的《数据挖掘概念与技术》学习笔记

發布時間:2023/12/20 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据仓库与数据挖掘的OLAP技术----韩家炜教授的《数据挖掘概念与技术》学习笔记 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據倉庫與數據挖掘的OLAP技術

1.數據倉庫

??概念:數據倉庫是一個面向主題的、集成的、隨時間而變化的、不容易丟失的數據集合,支持管理部門的決策過程.

??關鍵特征:

v?面向主題:圍繞一些主題;關注決策者的數據建模與分析,而不是集中于組織機構的日常操作和事務處理(這是數據庫的任務)。排除對于決策無用的數據,提供特定主題的簡明視圖。

v?數據集成:由異種數據源(關系數據庫,一般文件,聯機事務處理記錄)集成構成的;使用數據清理和數據集成技術。

v?隨時間而變化:數據倉庫的時間范圍比操作數據庫要長的多,每一個關鍵結構都隱式或顯式地包含時間元素。

v?數據不易丟失:數據是只讀的(除了初始轉載),不需要事務處理,恢復,和并發控制。

??建立數據倉庫

數據集成,數據清理和數據統一

對于異種數據庫的集成,傳統的數據庫做法:包裝程序和集成程序?--》查詢驅動

數據倉庫做法:異種源的信息預先集成?--》更新驅動

??操作數據庫系統(OLTP)與數據數據倉庫(OLAP)的區別

特征

OLTP

OLAP

用戶和系統的面向性

顧客

市場

數據內容

當前詳細的數據

歷史匯總的數據

數據庫設計

ER模型,面向應用的數據庫設計

星型。雪花模型和面向主題的數據庫設計

視圖

當前的,企業內部的數據

經過演化的集成的數據

訪問模式

事務操作

事務查詢

任務單位

簡短的事務

復雜的查詢

數據訪問量

數十個

數百萬條

用戶數

數千個

數百個

DB規模

100M-GB

100GB-TB

優先性

高性能,高可用性

高靈活,端點用戶自治

度量

事務吞吐量

查詢吞吐量,響應時間

??數據倉庫的存在價值

v?提高兩個系統的性能:操作數據庫是為已知的任務和負載設計的,數據倉庫涉及大量數據在匯總級的計算,在操作數據庫上處理OLAP查詢,可能大大降低操作人物的性能。

v?系統中數據的結構,內容和用法都不相同:操作數據庫只維護詳細的原始數據,而數據倉庫將一種源的數據統一,產生高質量的,純凈的和集成的數據用于決策

?

2.多維數據模型

??基本概念:

v?數據方:允許以多維數據建模和觀察,由維和事實定義

v?維:記錄的視角或視點,每個維都有一個表與之相關聯,稱為維表。

v?事實表:包括事實的名稱或度量以及每個相關維表的關鍵字。

??數據庫模式:

v?星型模型:一個大的事實表+一組小的維表

?

v?雪花模型:對星型模型的維表進行規范化,減少冗余

?

v?事實星座:多個事實表共享維表

?

??數據集市

數據倉庫搜集了關于整個組織的主題信息,是企業范圍的,采用事實星座模式

數據集市是數據倉庫的一個部門子集,針對選定主題,是部門范圍的,采用星型模式

??數據挖掘查詢語言(DMQL

v?原語定義:

立方體定義?(事實表)

define?cube?<cube_name>?[<dimension_list>]:?????????

????<measure_list>

維定義?(維表)

define?dimension?<dimension_name>?as?<attribute_or_subdimension_list>

v?實例(圖2.6事實星座模式用DMQL定義)

?

??度量

v?概念:數據方的度量是一個數值函數,該函數可以對數據方的每一個點求值,通過對給定的各維-值對聚集數據,計算該店的度量值。

v?分類

2?分布的:將函數用于n個聚集值得到的結果,與將函數用于所有數據得到的結果一樣,則該函數可以用分布方式計算。如,count(),min(),?max(),?sum()

2?代數的:能夠由一個具有M個參數的代數函數計算,而每個參數都可以用一個分布聚集函數求得。如,avg()max()

2?整體的:不存在一個具有M個(其中,M是常數)參數的代數函數進行這一計算。如,rank(),median()

??概念分層

????定義一個映射序列,將底層概念到更一般的高層概念

v?模式分層

?

v?集合分組分層

?

??OLAP操作

v?上卷:沿概念分層向上攀升,或維規約

v?下鉆:沿概念分層向下,或引入新的維

v?切片和切換:在給定的數據方的一個維進行選擇,導致一個子方

v?轉軸(旋轉):轉動數據的視角,提供數據的替代表示

?

?

3.數據倉庫的系統結構

??三層數據倉庫結構:

頂層:客戶(查詢/報告工具,分析工具,數據挖掘工具)

中間層:OLAP服務器(ROLAPMOLAP

底層:數據倉庫服務器

??數據倉庫模型

v?企業倉庫:收集關于主題的所有信息,跨越整個組織

v?數據集市:數據集市包含企業范圍數據的一個子集,范圍限于選定主題

v?虛擬倉庫:操作數據庫在視圖上的集合

??OLAP服務器類型

v?ROLAP:中間服務器,介于關系后端服務器和用戶前端工具之間,使用關系或拓充關系DBMS存放并管理數據倉庫,而OLAP中間件支持其余部分。

v?MOLAP:基于數組的多維存儲引擎,支持數據的多維視圖,將多維視圖直接映射到數據方數組結構,

v?HOLAP:較大的可規模性的ROLAP+快速運算的MOLAP

v?特殊的SQL服務器

?

4.數據倉庫的實現

??數據方的有效計算

v?一個n維數據方的方體,

若每個維都沒有分層,則方體總數為:2^n

若每個維不止一層,則方體總數是

v?部分物化:方體選擇計算

v?多路數組聚集(例2.12)

??索引OLAP數據

位圖索引,連接索引,復合連接索引

??元數據

v?數據倉庫存儲的描述:倉庫模式,視圖,維,層次結構,導出數據的定義等

v?操作元數據

v?數據倉庫結構

v?匯總用的算法

v?由操作環境到數據倉庫的映射

v?關于系統性能的數據

v?商務元數據

??數據倉庫后端工具和實用數據

v?數據提取

v?數據清理

v?數據變換

v?裝入

v?刷新

?

5.數據方技術的進一步發展

??發現驅動的探查

預計算的度量指出數據例外,在所有的聚集級指導用戶的數據分析過程,我們稱這種度量為例外指示符。例外是一個數據方單元值,基于某種統計模型,它顯著地不同于預計值。

?

?

6.由數據倉庫到數據挖掘

??數據倉庫的運用:

v?信息處理:基本查詢和基本的統計分析

v?分析處理:支持基本的OLAP操作

v?數據挖掘:找出隱藏的模式和關聯,構造分析模型,進行分類和預測

??數據挖掘,信息處理,聯機數據分析

v?信息處理基于查詢,可以發現有用的信息,直接反映存放在數據庫中的信息,或通過聚集函數可計算的信息;

v?OLAP是數據匯總,聚集工具,幫助簡化數據分析;

v?數據挖掘是自動發現隱藏在大量數據中的隱含模式和有趣只是。

總結

以上是生活随笔為你收集整理的数据仓库与数据挖掘的OLAP技术----韩家炜教授的《数据挖掘概念与技术》学习笔记的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。