日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

【数据挖掘笔记四】数据仓库和联机分析处理

發(fā)布時間:2025/4/16 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数据挖掘笔记四】数据仓库和联机分析处理 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

4.數(shù)據(jù)倉庫和聯(lián)機分析處理

數(shù)據(jù)倉庫泛化、合并多維空間的數(shù)據(jù)。構(gòu)造數(shù)據(jù)倉庫涉及數(shù)據(jù)清理、數(shù)據(jù)集成和數(shù)據(jù)變換,是數(shù)據(jù)挖掘的預(yù)處理步驟。數(shù)據(jù)倉庫提供聯(lián)系分析處理(OLAP)工具,用于各種粒度的多維數(shù)據(jù)的交互分析,助力數(shù)據(jù)泛化和數(shù)據(jù)挖掘,可以和數(shù)據(jù)挖掘功能集成,如關(guān)聯(lián)、聚類、分類和預(yù)測,用以加強多個抽象層上的交互知識挖掘。

數(shù)據(jù)倉庫是數(shù)據(jù)分析和聯(lián)系數(shù)據(jù)分析處理的重要平臺,并為數(shù)據(jù)挖掘提供有效平臺,構(gòu)造數(shù)據(jù)倉庫和OLAP是知識發(fā)現(xiàn)過程的基本步驟。

4.1數(shù)據(jù)倉庫:基本概念

1)什么是數(shù)據(jù)倉庫

數(shù)據(jù)倉庫是一種數(shù)據(jù)庫,與事務(wù)或操作數(shù)據(jù)庫分別維護。數(shù)據(jù)倉庫系統(tǒng)將各種應(yīng)用系統(tǒng)的數(shù)據(jù)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實的平臺,對信息處理提供支持。

數(shù)據(jù)倉庫是一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,支持管理者的決策過程。

?? 面向主題的(subject-oriented):數(shù)據(jù)倉庫圍繞主題,如顧客、供應(yīng)商、產(chǎn)品和銷售,關(guān)注決策者的數(shù)據(jù)建模與分析,而不是日常操作和事務(wù)處理,因此數(shù)據(jù)倉庫是排除對決策無用的數(shù)據(jù),而提供特定主題的視圖。

?? 集成的(integrated):構(gòu)造數(shù)據(jù)倉庫將多個異構(gòu)數(shù)據(jù)源,如關(guān)系數(shù)據(jù)庫、一般文件和聯(lián)機事務(wù)處理記錄集成在一起,使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定、編碼結(jié)構(gòu)、屬性度量等的一致性。

?? 時變的(time-variant):數(shù)據(jù)存儲從歷史的角度提供信息,數(shù)據(jù)倉庫中的關(guān)鍵結(jié)構(gòu)都隱式或顯示地包含時間元素。

?? 非易失的(nonvolatile):數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù),所存放的數(shù)據(jù)源于操作環(huán)境下的應(yīng)用數(shù)據(jù),這種分離機制,使得數(shù)據(jù)倉庫不需要事務(wù)處理、恢復(fù)和并發(fā)控制機制,只需要兩種數(shù)據(jù)訪問操作:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。

概言之,數(shù)據(jù)倉庫是一種語義上一致的數(shù)據(jù)存儲,作為決策支持數(shù)據(jù)模型的物理實現(xiàn),并存放企業(yè)戰(zhàn)略決策所需要的信息。數(shù)據(jù)倉庫是一種體系結(jié)構(gòu),通過將異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)集成在一起而構(gòu)建,支持結(jié)構(gòu)化和/或?qū)iT的查詢、分析報告和決策制定。

構(gòu)建和使用數(shù)據(jù)倉庫的過程即建立數(shù)據(jù)倉庫(data warehousing)。數(shù)據(jù)倉庫的構(gòu)建需要數(shù)據(jù)集成、數(shù)據(jù)清理和數(shù)據(jù)統(tǒng)一。數(shù)據(jù)倉庫的使用常涉及決策支持技術(shù),使知識工人(如經(jīng)理、分析人員或主管)通過數(shù)據(jù)倉庫快捷、方便地得到數(shù)據(jù)的總體視圖,根據(jù)數(shù)據(jù)倉庫中的信息作出準(zhǔn)確的決策。

對于異構(gòu)數(shù)據(jù)庫集成來說,集成多個異構(gòu)的、自治的和分布的數(shù)據(jù)源并維護是一個挑戰(zhàn)。傳統(tǒng)數(shù)據(jù)庫對于異構(gòu)數(shù)據(jù)庫的集成采用查詢驅(qū)動的(query-driven)方法,而數(shù)據(jù)倉庫用更新驅(qū)動(update-driven)方法。

查詢驅(qū)動方法:在多個異構(gòu)數(shù)據(jù)庫上,建立一個包裝程序和一個集成程序或中介程序,當(dāng)查詢在客戶站點提交時,首先使用元數(shù)據(jù)字典對查詢進行轉(zhuǎn)換,將它轉(zhuǎn)換成相應(yīng)異構(gòu)站點上的查詢;然后,將查詢映射和發(fā)送到局部查詢處理器,由不同站點返回的結(jié)果被集成為全局回答;該方法需復(fù)雜的信息過濾和集成處理,并且與局部數(shù)據(jù)源上的處理競爭資源,對于頻繁的查詢,特別是需要聚集操作的操作,開銷大。

更新驅(qū)動方法:將來自多個異構(gòu)源的信息預(yù)先集成,并存儲在數(shù)據(jù)倉庫中,供直接查詢和分析;與聯(lián)機事務(wù)處理數(shù)據(jù)庫不同,數(shù)據(jù)倉庫不包含最近的信息;不過數(shù)據(jù)倉庫為集成的異構(gòu)數(shù)據(jù)庫系統(tǒng)帶來了高性能,因為數(shù)據(jù)被復(fù)制、預(yù)處理、集成、注釋、匯總,并重新組織到一個語義一致的數(shù)據(jù)存儲中;數(shù)據(jù)倉庫的查詢處理不影響在局部數(shù)據(jù)源上進行的處理;數(shù)據(jù)倉庫存儲并集成歷史信息,支持復(fù)雜的多維查詢。

2)操作數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫的區(qū)別

聯(lián)機操作數(shù)據(jù)庫系統(tǒng)的主要任務(wù)是執(zhí)行聯(lián)機事務(wù)和查詢處理,即聯(lián)機事務(wù)處理(Online Transaction Processing,OLTP)。數(shù)據(jù)倉庫系統(tǒng)在數(shù)據(jù)分析和決策方面為用戶或知識工人提供服務(wù),可用不同的格式組織和提供數(shù)據(jù),滿足不同用戶的不同需求,即聯(lián)機分析處理(Online Analytical Processing,OLAP)系統(tǒng)。OLTP和OLAP主要區(qū)別:

?? 用戶和系統(tǒng)的面向性:OLTP是面向顧客的,用于事務(wù)和查詢處理;OLAP是面向市場的,用于數(shù)據(jù)分析。

?? 數(shù)據(jù)內(nèi)容:OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù),數(shù)據(jù)瑣碎難用于決策;OLAP系統(tǒng)管理大量歷史數(shù)據(jù),提供匯總和聚集機制,并在不同的粒度層上存儲管理信息,用于決策。

?? 數(shù)據(jù)庫設(shè)計:OLTP采用實體-聯(lián)系(E-R)數(shù)據(jù)模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計;而OLAP系統(tǒng)通常采用星形或雪花模型和面向主題的數(shù)據(jù)庫設(shè)計。

?? 視圖:OLTP系統(tǒng)主要關(guān)注企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù),而不涉及歷史數(shù)據(jù)或不同單位的數(shù)據(jù);OLAP系統(tǒng)是跨越數(shù)據(jù)庫模式,處理不同單位的信息,以及多個數(shù)據(jù)庫集成的信息,數(shù)據(jù)量巨大,OLAP數(shù)據(jù)也存放在多個存儲介質(zhì)上。

?? 訪問模式:OLTP系統(tǒng)的訪問主要由短的原子事務(wù)組成,需要并發(fā)控制和恢復(fù)機制;OLAP系統(tǒng)的大部分訪問是讀取操作(大部分數(shù)據(jù)倉庫存放歷史數(shù)據(jù),而不是最新數(shù)據(jù)),并且是復(fù)雜的查詢。

OLTP和OLAP的區(qū)別,包括數(shù)據(jù)庫大小、操作頻繁程度、性能度量等,如下表:

特征

OLTP

OLAP

特性

操作處理

信息處理

面向

事務(wù)

分析

用戶

辦事員、DBA、數(shù)據(jù)庫專業(yè)人員

知識工人,如經(jīng)理、主管、分析人員

功能

日常操作

長期信息需求、決策支持

DB設(shè)計

基于E-R,面向應(yīng)用

星形/雪花、面向主題

數(shù)據(jù)

當(dāng)前的、確保最新

歷史的、跨時間維護

匯總

原始的、高度詳細

匯總的、統(tǒng)一的

視圖

詳細、一般關(guān)系

匯總的、多維的

工作單元

短的、簡單事務(wù)

復(fù)雜查詢

訪問

讀/寫

大多為讀

關(guān)注

數(shù)據(jù)進入

信息輸出

操作

主碼上索引/散列

大量掃描

訪問記錄數(shù)量

數(shù)十

數(shù)百萬

用戶數(shù)

數(shù)千

數(shù)百

DB規(guī)模

GB到高達TB

≥TB

優(yōu)先

高性能、高可用性

高靈活性、終端用戶自治

度量

事務(wù)吞吐量

查詢吞吐量、響應(yīng)時間

3)為什么需要分離的數(shù)據(jù)倉庫

提出問題:為什么不直接在數(shù)據(jù)庫上進行聯(lián)機分析處理,而要單獨去構(gòu)造獨立的數(shù)據(jù)倉庫呢?

分離數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)倉庫系統(tǒng)的主要原因有助于提高兩個系統(tǒng)的性能。操作數(shù)據(jù)庫是為已知的任務(wù)和負載設(shè)計的,如使用主碼索引和散列,檢索特定的記錄,優(yōu)化定制的查詢;而數(shù)據(jù)倉庫系統(tǒng)的查詢是復(fù)雜的,涉及大量數(shù)據(jù)在匯總級的計算,需要特殊的基于多維視圖的數(shù)據(jù)組織、存取方法和實現(xiàn)方法,如果在操作數(shù)據(jù)庫上處理OLAP查詢,會大大降低操作任務(wù)的性能。

分離的原因還因為操作數(shù)據(jù)庫支持多事務(wù)的并發(fā)處理,需并發(fā)控制和恢復(fù)機制(如加鎖和記日志),以確保一致性和事務(wù)的魯棒性;而OLAP只需對匯總和聚集數(shù)據(jù)記錄進行只讀訪問,如果在數(shù)據(jù)倉庫系統(tǒng)上加上并發(fā)控制和恢復(fù)機制,會影響到并行事務(wù)的運行,且降低OLTP系統(tǒng)的吞吐量。

由于兩種系統(tǒng)中數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和用戶都不相同,所以需要分離。決策支持整合來自異構(gòu)源的數(shù)據(jù),產(chǎn)生高質(zhì)量的、純凈的和集成的數(shù)據(jù);而操作數(shù)據(jù)則維護詳細的原始事務(wù)數(shù)據(jù)。

4)數(shù)據(jù)倉庫:一種多層體系結(jié)構(gòu)

數(shù)據(jù)倉庫采用三層體系結(jié)構(gòu):

?? 底層是倉庫數(shù)據(jù)庫服務(wù)器,是一個關(guān)系數(shù)據(jù)庫系統(tǒng);通過后端工具和實用程序,由操作數(shù)據(jù)庫或其他外部數(shù)據(jù)源提取數(shù)據(jù)放入底層,工具和實用程序進行數(shù)據(jù)提取、清理和變換,以及裝入和刷新,以更新數(shù)據(jù)倉庫;數(shù)據(jù)提取采用信關(guān)(gateway)組件,信關(guān)由基礎(chǔ)DBMS支持,允許客戶程序產(chǎn)生SQL腳本,包括ODBC、OLE-DB和JDBC;底層還包括元數(shù)據(jù)庫,存放關(guān)于數(shù)據(jù)倉庫和它內(nèi)容的信息。

?? 中間層是OLAP服務(wù)器,其典型的實現(xiàn)應(yīng)用關(guān)系OLAP(ROLAP)模型(擴充的關(guān)系DBMS,將多維數(shù)據(jù)上的操作映射為標(biāo)準(zhǔn)的關(guān)系操作),或使用多維OLAP(MOLAP)模型(專門的服務(wù)器,直接實現(xiàn)多維數(shù)據(jù)和操作)。

?? 頂層是前端客戶層,包括查詢和報告工具、分析工具和/或數(shù)據(jù)挖掘工具(如趨勢分析、預(yù)測等)。

??? 5)數(shù)據(jù)倉庫模型:企業(yè)倉庫、數(shù)據(jù)集市和虛擬倉庫

從結(jié)構(gòu)的角度看,有三種數(shù)據(jù)倉庫模型:企業(yè)倉庫、數(shù)據(jù)集市和虛擬倉庫。

?? 企業(yè)倉庫(enterprisewarehouse):企業(yè)倉庫搜集關(guān)于主題的所有信息,跨越整個企業(yè),提供企業(yè)范圍內(nèi)的數(shù)據(jù)集成,來自一個或多個操作數(shù)據(jù)庫系統(tǒng)或外部信息提供者,并且是多功能的;通常,包含細節(jié)數(shù)據(jù)和匯總數(shù)據(jù),可以在傳統(tǒng)的大型機、超級計算機服務(wù)器或并行結(jié)構(gòu)平臺上實現(xiàn),需要廣泛的商務(wù)建模,需多年累積建設(shè)。

?? 數(shù)據(jù)集市(datamart):數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個子集,對于特定的用戶群是有用,其范圍限定于選定的主題;數(shù)據(jù)集市可在較低服務(wù)器上實現(xiàn);根據(jù)數(shù)據(jù)源的不同,分為獨立的和依賴的兩類,在獨立的數(shù)據(jù)集市中,數(shù)據(jù)來自一個或多個操作數(shù)據(jù)庫系統(tǒng)或外部信息提供者,或者來自在一個特定的部門或地區(qū)局部產(chǎn)生的數(shù)據(jù),依賴的數(shù)據(jù)集市的數(shù)據(jù)直接來自企業(yè)數(shù)據(jù)倉庫。

?? 虛擬倉庫(virtualwarehouse):虛擬倉庫是操作數(shù)據(jù)庫上視圖的集合;為有效地處理查詢,只有部分匯總視圖被物化,虛擬倉庫易于建立,但需操作數(shù)據(jù)庫服務(wù)器還有余力。

自頂向下開發(fā)企業(yè)倉庫是一種系統(tǒng)的解決方案,能最大限度地減少集成問題,不過費用高、周期長且缺乏靈活性;自底向上的配置獨立的數(shù)據(jù)集市則相對靈活、低花費,不過數(shù)據(jù)集市的集成也會帶來問題。對于開發(fā)數(shù)據(jù)倉庫系統(tǒng),建議的方法是以遞增、進化的方式實現(xiàn)數(shù)據(jù)倉庫,先定義一個高層次的企業(yè)數(shù)據(jù)模型,在不同的主題和可能的應(yīng)用之間,提供企業(yè)范圍的、一致的、集成的數(shù)據(jù)視圖;其次基于高層次企業(yè)數(shù)據(jù)模型,并行地實現(xiàn)獨立的數(shù)據(jù)集市和企業(yè)數(shù)據(jù)倉庫,也可通過中心服務(wù)器集成不同的數(shù)據(jù)集市,構(gòu)造分布數(shù)據(jù)集市;最后構(gòu)造一個多層數(shù)據(jù)倉庫(multitier data warehouse),企業(yè)倉庫是所有倉庫數(shù)據(jù)的唯一管理者,倉庫數(shù)據(jù)分布在一些依賴的數(shù)據(jù)集市中。

6)數(shù)據(jù)提取、變換和裝入

數(shù)據(jù)倉庫系統(tǒng)使用后端工具和實用程序來加載和刷新它的數(shù)據(jù),這些工具和程序包含以下功能:

?? 數(shù)據(jù)提取:由多個異構(gòu)的外部數(shù)據(jù)源收集數(shù)據(jù);

?? 數(shù)據(jù)清理:檢測數(shù)據(jù)中的錯誤,可能時修訂;

?? 數(shù)據(jù)變換:將數(shù)據(jù)由遺產(chǎn)或宿主格式轉(zhuǎn)換成數(shù)據(jù)倉庫格式;

?? 裝入:排序、匯總、合并、計算視圖、檢查完整性,并建立索引和劃分;

?? 刷新:傳播由數(shù)據(jù)源到數(shù)據(jù)倉庫的更新。

??? 除清理、裝入、刷新和元數(shù)據(jù)定義工具外,數(shù)據(jù)倉庫系統(tǒng)還提供一組數(shù)據(jù)倉庫管理工具。數(shù)據(jù)清理和數(shù)據(jù)變換是提高數(shù)據(jù)質(zhì)量,從而提高其后的數(shù)據(jù)挖掘結(jié)果質(zhì)量的重要步驟。

7)元數(shù)據(jù)庫

元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉庫中,元數(shù)據(jù)是定義倉庫對象的數(shù)據(jù)。對于給定的數(shù)據(jù)倉庫的數(shù)據(jù)名和定義,創(chuàng)建元數(shù)據(jù)。其他元數(shù)據(jù)包括對提取數(shù)據(jù)添加的時間標(biāo)簽、提取數(shù)據(jù)的源、被數(shù)據(jù)清理或集成處理添加的缺失字段等。元數(shù)據(jù)庫應(yīng)當(dāng)包括以下內(nèi)容:

?? 數(shù)據(jù)倉庫結(jié)構(gòu)的描述,包括倉庫模式、視圖、維、分層結(jié)構(gòu)、導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容。

?? 操作元數(shù)據(jù),包括數(shù)據(jù)血統(tǒng)(遷移數(shù)據(jù)的歷史和它所用的變換序列)、數(shù)據(jù)疏通(主動的、檔案的或凈化的)和管理信息(倉庫使用的統(tǒng)計量、錯誤報告和審計跟蹤)。

?? 用于匯總的算法,包括度量和維定義算法,數(shù)據(jù)所處的粒度、劃分、主題領(lǐng)域、聚集、匯總、預(yù)定義的查詢和報告。

?? 由操作環(huán)境到數(shù)據(jù)倉庫的映射,包括源數(shù)據(jù)庫及其內(nèi)容,信關(guān)描述,數(shù)據(jù)劃分,數(shù)據(jù)提取、清理、轉(zhuǎn)換規(guī)則和默認值,數(shù)據(jù)刷新和凈化規(guī)則,以及安全性(用戶授權(quán)和存取控制)。

?? 關(guān)于系統(tǒng)性能的數(shù)據(jù),除刷新、更新和復(fù)制周期的定時和調(diào)度的規(guī)則外,還包括改善數(shù)據(jù)存取和檢索性能的索引和概要。

?? 商務(wù)元數(shù)據(jù),包括商務(wù)術(shù)語和定義,數(shù)據(jù)擁有者信息和收費策略。

數(shù)據(jù)倉庫包含不同的匯總層,元數(shù)據(jù)是其中一種類型。其他類型包括當(dāng)前的細節(jié)數(shù)據(jù)(幾乎總是在磁盤上)、老的細節(jié)數(shù)據(jù)(通常在三級存儲器上)、稍加匯總的數(shù)據(jù)和高度匯總的數(shù)據(jù)(可以也可以不物理地存入倉庫)。

與數(shù)據(jù)倉庫的其他數(shù)據(jù)相比,元數(shù)據(jù)扮演重要的角色,例如元數(shù)據(jù)用作目錄,幫助決策支持系統(tǒng)分析者對數(shù)據(jù)倉庫的內(nèi)容定位;當(dāng)數(shù)據(jù)由操作環(huán)境到數(shù)據(jù)倉庫轉(zhuǎn)換時,元數(shù)據(jù)作為數(shù)據(jù)映射的指南;對于匯總的算法將當(dāng)前細節(jié)數(shù)據(jù)匯總成稍加綜合的數(shù)據(jù),或?qū)⑸约泳C合的數(shù)據(jù)匯總成高度綜合的數(shù)據(jù),元數(shù)據(jù)也起到指南作用。

元數(shù)據(jù)應(yīng)當(dāng)持久存放和管理(即放在磁盤上)。

4.2數(shù)據(jù)倉庫建模:數(shù)據(jù)立方體和OLAP

數(shù)據(jù)倉庫和OLAP工具基于多維數(shù)據(jù)模型,這種模型將數(shù)據(jù)看做數(shù)據(jù)立方體形式。

1)數(shù)據(jù)立方體:一種多維數(shù)據(jù)模型

數(shù)據(jù)立方體(datacube)允許以多維對數(shù)據(jù)建模和觀察,由維和事實定義。維是一個單位想要記錄的透視或?qū)嶓w,與之相關(guān)聯(lián)的表為維表;事實是數(shù)值度量的,事實表包括事實的名稱或度量,以及每個相關(guān)維表的碼。

數(shù)據(jù)立方體是多維數(shù)據(jù)存儲的一種比喻,數(shù)據(jù)的實際物理存儲可以不同于它的邏輯表示。數(shù)據(jù)立方體是n維,不限于3D。數(shù)據(jù)立方體稱做方體(cuboid),給定維的集合,對給定諸維的每個可能的子集產(chǎn)生一個方體,結(jié)果形成方體的格,每個方體在不同的匯總級顯示group by數(shù)據(jù)。方體的格稱做數(shù)據(jù)立方體,存放在最低層匯總的方體稱做基本方體(basecuboid),放在最高層的匯總稱做頂點方體(apex cuboid)。

2)星形、雪花形和事實星座:多維數(shù)據(jù)模型的模式

實體-聯(lián)系數(shù)據(jù)模型用于關(guān)系數(shù)據(jù)庫設(shè)計,數(shù)據(jù)庫模式用實體集和它們之間的聯(lián)系表示,適用于聯(lián)機事務(wù)處理;而數(shù)據(jù)倉庫需要簡明的、面向主題的模式,便于聯(lián)機數(shù)據(jù)分析。

數(shù)據(jù)倉庫的數(shù)據(jù)模型是多維數(shù)據(jù)模型:

a、星形模型starschema

一個大的中心表(事實表),包括大批數(shù)據(jù)且不冗余,一組小的附屬表(維表),每維一個;維表圍繞中心表。

b、雪花模型snowflakeschema

在星形模式基礎(chǔ)上,對某些維表進一步規(guī)范化,將事實表中的數(shù)據(jù)進一步分解到維表中,維表更多類似雪花。雪花模式的維表是規(guī)范化形式,目的是減少冗余,易于維護節(jié)省存儲空間;不過和事實表龐大的數(shù)據(jù)相比,這種空間的節(jié)省可以忽略,且執(zhí)行查詢需要連接更多,影響查詢性能。

c、事實星座

事實星座是多個事實表共享維表。

數(shù)據(jù)倉庫是面向企業(yè)范圍的,適合采用事實星座;數(shù)據(jù)集市是面向具體某個業(yè)務(wù)的,適合采用星形或雪花模式。

3)維:概念分層的作用

概念分層(concepthierarchy)定義一個映射序列,將底層概念集映射到較高層、更一般的概念。

形成數(shù)據(jù)庫模式中屬性的全序或偏序的概念分層稱做模式分層(schema hierarchy)。

通過將給定維或?qū)傩缘闹惦x散化或分組來定義概念分層,產(chǎn)生集合分組分層(set-grouping hierarchy),可以在值的組合之間定義全序或偏序。概念分層可由系統(tǒng)用戶、領(lǐng)域?qū)<摇⒅R工程師人工提供,或根據(jù)數(shù)據(jù)分布的統(tǒng)計分析自動產(chǎn)生。概念分層是數(shù)據(jù)挖掘準(zhǔn)備的預(yù)處理步驟中重要工作。

4)度量的分類和計算

數(shù)據(jù)立方體的度量(measure)是一個數(shù)值函數(shù),該函數(shù)可對數(shù)據(jù)立方體空間的每個點求值,通過對給定點的各維-值聚集數(shù)據(jù),計算該點的度量值。

a、分布的(distributive)

一個聚集函數(shù)可用分布方式計算,則是分布。分布計算是指將數(shù)據(jù)劃分為n個集合,將函數(shù)作用于每個集合得到n個聚集值,其結(jié)果和將函數(shù)用于整體數(shù)據(jù)得到的結(jié)果一樣。如sum()、count()、min()、max()函數(shù)。

b、代數(shù)的(algebraic)

一個聚集函數(shù)能用一個具有M個參數(shù)的代數(shù)函數(shù)計算(M是有界正整數(shù)),而每個參數(shù)可以用一個分布聚集函數(shù)求得,則是代數(shù)的。如avt()=sum()/count()。

c、整體的(holistic)

一個聚集函數(shù)如果描述它的子聚集所需的存儲沒有一個常數(shù)界,則是整體的,包括median()、mode()和rank(),一個度量如果是由整體聚集函數(shù)得到的,則它是整體的。

5)典型的OLAP操作

在多維數(shù)據(jù)模型中,數(shù)據(jù)組織在多維空間,每維包含由概念分層定義的多個抽象層。部分數(shù)據(jù)立方體操作可物化視圖,允許交互查詢和分析數(shù)據(jù)。OLAP操作主要包括:

a、上卷rollup:沿一個維的概念分層向上攀升或通過維歸約在數(shù)據(jù)體立方體上進行聚集。

b、下鉆drilldown:是上卷的逆操作,沿維的概念分層向下或引入附加的維來實現(xiàn)。

c、切片和切塊slice:在給定的立方體的一個維上進行選擇,導(dǎo)致一個子立方體,是切片;切塊(dice)操作通過在兩個或多個維上進行選擇,定義子立方體。

d、轉(zhuǎn)軸(pivot):也成旋轉(zhuǎn)rotate是一種目視操作,轉(zhuǎn)動數(shù)據(jù)的視角,提供數(shù)據(jù)的替代表示。

e、其他OLAP操作:鉆過(drill-across)執(zhí)行涉及多個事實表的查詢;鉆透(drill-through)操作使用關(guān)系SQL機制,鉆透到數(shù)據(jù)立方體的底層,到后端關(guān)系表。

其他OLAP操作還包括列出表中最高或最低N項,以及計算移動平均值、增長率、利潤、內(nèi)部返回率、貶值、流通轉(zhuǎn)換和統(tǒng)計功能。

OLAP提供了分析建模機制,包括推導(dǎo)比率、方差等以及計算多個維上度量的計算引擎,能在每一粒度和所有維的交上產(chǎn)生匯總、聚集和分層。OLAP也支持預(yù)測、趨勢分析和統(tǒng)計分析函數(shù)原型,OLAP引擎是一種強有力的數(shù)據(jù)分析工具。

6)查詢多維數(shù)據(jù)庫的星網(wǎng)查詢模型

多維數(shù)據(jù)庫查詢可以基于星網(wǎng)模型(starnet model)。星網(wǎng)模型從中心點發(fā)出的射線組成,其中每一條射線代表一個維的概念分層。概念分層上的每個抽象級成為一個足跡(ftooprint),代表諸如上卷、下鉆等OLAP操作可用的粒度。

通過用較高層抽象值替換底層抽象值,概念分層可用于泛化(generalize)數(shù)據(jù);通過用低層抽象值替換高層抽象值,概念分層可特殊化(specialize)數(shù)據(jù)。

4.3數(shù)據(jù)倉庫的設(shè)計與使用

1)數(shù)據(jù)倉庫的設(shè)計的商務(wù)分析框架

數(shù)據(jù)倉庫有助于提高競爭優(yōu)勢、提高企業(yè)生產(chǎn)力、客戶關(guān)系管理等。為設(shè)計有效的數(shù)據(jù)倉庫,要理解和分析商務(wù)需求,構(gòu)造一個商務(wù)分析框架。對于數(shù)據(jù)倉庫的設(shè)計,有四種不同的視圖:

a、自頂向下視圖;

b、數(shù)據(jù)源視圖:用傳統(tǒng)的數(shù)據(jù)建模技術(shù),如E-R模型;

c、數(shù)據(jù)倉庫視圖:包括事實表和維表;

d、商務(wù)查詢視圖:從用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù)。

建立和使用數(shù)據(jù)倉庫,涉及:

a、商務(wù)技巧:理解如何存儲和管理數(shù)據(jù);提取程序,數(shù)據(jù)從操作數(shù)據(jù)庫轉(zhuǎn)換到數(shù)據(jù)倉庫;倉庫刷新軟件,合理地保持數(shù)據(jù)倉庫中的數(shù)據(jù)相對于操作數(shù)據(jù)庫中數(shù)據(jù)的當(dāng)前行;

b、技術(shù)技巧:根據(jù)數(shù)據(jù)倉庫中的歷史信息得到的結(jié)論推導(dǎo)事實,包括發(fā)現(xiàn)模式和趨勢,根據(jù)歷史推斷趨勢和發(fā)現(xiàn)異常或模式漂移的能力;

c、計劃管理技巧;

2)數(shù)據(jù)倉庫的設(shè)計過程

數(shù)據(jù)倉庫有自頂向下、自底向上以及二者混合的三種設(shè)計方法。自頂向下從總體設(shè)計和規(guī)劃開始,自底向上以實驗和原型開始。

數(shù)據(jù)倉庫的設(shè)計和構(gòu)造包含以下步驟:規(guī)劃、需求研究、問題分析、倉庫設(shè)計、數(shù)據(jù)集成和測試、部署數(shù)據(jù)倉庫。開發(fā)方法有:瀑布式方法和螺旋式方法。瀑布式方法在進行下一步之前,每一步都進行結(jié)構(gòu)的和系統(tǒng)的分析,如瀑布一樣,從一級落到一級。螺旋式方法是功能漸增的系統(tǒng)的快速產(chǎn)生,相繼發(fā)布之間的間隔很短,適合數(shù)據(jù)集市的開發(fā)。

數(shù)據(jù)倉庫的實現(xiàn)目標(biāo)應(yīng)當(dāng)是詳細而明確的、可實現(xiàn)的和可測量的。

3)數(shù)據(jù)倉庫用于信息處理

數(shù)據(jù)倉庫工具可分為訪問和檢索工具、數(shù)據(jù)庫報表工具、數(shù)據(jù)分析工具和數(shù)據(jù)挖掘工具。

有三類數(shù)據(jù)倉庫應(yīng)用:信息處理、分析處理、數(shù)據(jù)挖掘。信息處理支持查詢和基本的統(tǒng)計分析;分析處理支持基本的OLAP操作,包括切片和切塊、下鉆和上卷以及轉(zhuǎn)軸;數(shù)據(jù)挖掘支持知識發(fā)現(xiàn),找出隱藏的模式和關(guān)聯(lián),構(gòu)造分析模型,進行分類預(yù)測,并使用可視化工具提供挖掘結(jié)果。

OLAP和數(shù)據(jù)挖掘的功能是不相交的,OLAP是數(shù)據(jù)匯總/聚集工具,簡化數(shù)據(jù)分析;而數(shù)據(jù)挖掘則是自動地發(fā)現(xiàn)隱藏在大量數(shù)據(jù)中的隱含模式和有趣知識。

4)從聯(lián)機分析處理到多維數(shù)據(jù)挖掘

數(shù)據(jù)類型包括關(guān)系數(shù)據(jù)、數(shù)據(jù)倉庫中的數(shù)據(jù)、事務(wù)數(shù)據(jù)、時間序列數(shù)據(jù)、空間數(shù)據(jù)、文本數(shù)據(jù)和一般文件。多維數(shù)據(jù)挖掘(又稱探索式多維數(shù)據(jù)挖掘、聯(lián)機分析挖掘或OLAM)把數(shù)據(jù)挖掘于OLAP集成再一起,在多維數(shù)據(jù)庫中發(fā)現(xiàn)知識。

多維數(shù)據(jù)挖掘的重要性,基于數(shù)據(jù)倉庫中數(shù)據(jù)的高質(zhì)量、環(huán)繞數(shù)據(jù)倉庫的信息處理基礎(chǔ)設(shè)施、基于OLAP的多維數(shù)據(jù)探索、數(shù)據(jù)挖掘功能的聯(lián)機選擇。

多維數(shù)據(jù)挖掘強調(diào)數(shù)據(jù)挖掘和OLAP技術(shù)的集成。

4.4數(shù)據(jù)倉庫的實現(xiàn)

數(shù)據(jù)倉庫包含海量數(shù)據(jù),OLAP服務(wù)器要在數(shù)秒內(nèi)回答決策支持查詢,因此數(shù)據(jù)倉庫系統(tǒng)要支持高效的數(shù)據(jù)立方體計算技術(shù)、存取方法和查詢處理技術(shù)。

1)數(shù)據(jù)立方體的有效計算:概述

多維數(shù)據(jù)分析的核心是有效計算許多維集合上的聚集,即SQL上的group by。每個分組用一個方體表示,分組的集合形成定義數(shù)據(jù)立方體的方體的格。

compute cube操作在操作指定的維的所有子集上計算聚集,需要很大存儲空間。不包含分組的SQL查詢是0維操作;包含一個分組的SQL查詢是一維操作;在n維上的一個立方體操作等價于一組分組語句,每個對應(yīng)于n個維的一個子集,立方體操作是分組操作的n維推廣。

對于不同的查詢,聯(lián)機分析錘煉需要訪問不同的方體,能提前計算所有的或者至少一部分方體,可以加快響應(yīng)時間,避免冗余計算,當(dāng)然是犧牲存儲空間。聚集的預(yù)計算,在維較多且維有關(guān)聯(lián)的概念分層時,存儲需求非常大,造成維災(zāi)難(curse of dimensionality)。

n維數(shù)據(jù)立方體的方體總數(shù)公式: ,加1是包括虛擬的頂層。給定基本方體,物化有三種選擇:不物化、完全物化、部分物化。不物化就是不預(yù)先計算任何非基本方體,查詢的實時計算代價高昂;而完全物化則是預(yù)先計算所有方體,需要海量存儲空間;部分物化是有選擇地計算方體集中一個適當(dāng)?shù)淖蛹瘉?#xff0c;要考慮三個因素,第一是確定要物化的方體子集或子立方體,第二是在查詢處理時利用物化的方體或子立方體,第三在裝入和刷新時有效地更新物化的方體或子立方體。

有些OLAP產(chǎn)品也采用啟發(fā)式方法來進行方體或子立方體的選擇,最佳效果就是所物化的子集,都能被其他所引用,這就提出冰山立方體(iceberg cube)。冰山立方體是一個數(shù)據(jù)立方體,只存放其聚集值大于某個最小支持閾值的立方體單元。還有一種策略是物化一個外殼立方體(shell cube),預(yù)計算數(shù)據(jù)立方體中少量的維的方體,作臨時查詢用。

2)索引OLAP數(shù)據(jù):位圖索引和連接索引

要提高查詢速度,數(shù)據(jù)倉庫系統(tǒng)除了物化立方體(實際就是聚集預(yù)計算,也可以理解為視圖的物化),還可以支持索引結(jié)構(gòu)。支持索引結(jié)構(gòu)有兩種:

a、位圖索引(bitmapindexing),允許在數(shù)據(jù)立方體中快速搜索。在給定屬性的位圖索引中,屬性域中的每個值v,有一個不同的位向量Bv,如屬性域中包含n個值,則需n位向量,如果給定行在該屬性域中有值v,則位向量值為1,否則為0,適合屬性域值是離散的情況。、

與散列和樹索引相比,位圖索引具有優(yōu)勢。對于基數(shù)較小的值域特別有用,因為比較、連接和聚集操作都簡化成位算術(shù)計算,大大減少時間;而且字符串用單個進位表示,降低了空間和IO開銷。對于基數(shù)較高的值域,可使用壓縮技術(shù),再用位圖索引。

b、連接索引(joinindexing)在關(guān)系數(shù)據(jù)庫查詢有應(yīng)用。連接索引登記來自關(guān)系數(shù)據(jù)庫的兩個關(guān)系的可連接行,連接索引記錄能夠識別可連接的元組,不比執(zhí)行開銷較大的連接操作。對于維護來自可連接的關(guān)系的外碼(一個關(guān)系模式中形成另一個關(guān)系模式主碼的屬性集)和與之匹配的主碼的聯(lián)系,連接索引比較有用。

3)OLAP查詢的有效處理

物化視圖和構(gòu)造OLAP索引結(jié)構(gòu)的目的是加快數(shù)據(jù)立方體查詢處理的速度。給定物化的視圖,查詢按照如下步驟進行:

確定哪些操作應(yīng)當(dāng)在可利用的方體上執(zhí)行;確定相關(guān)操作應(yīng)當(dāng)使用哪些物化的方體。

4)OLAP服務(wù)器結(jié)構(gòu):ROLAP、MOLAP、HOLAP的比較

用于OLAP處理的數(shù)據(jù)倉庫服務(wù)器的實現(xiàn)包括:

關(guān)系OLAP(ROLAP)服務(wù)器,介于后端服務(wù)器和前端工具之間,使用關(guān)系或擴充關(guān)系的DBMS存儲并管理數(shù)據(jù)倉庫數(shù)據(jù)。

多維OLAP(MOLAP)服務(wù)器,基于數(shù)組的多維存儲引擎,支持數(shù)據(jù)的多維視圖;將多維視圖直接映射到數(shù)據(jù)立方體數(shù)組結(jié)構(gòu),使用數(shù)據(jù)立方體能對預(yù)計算的匯總數(shù)據(jù)快速索引,如果數(shù)據(jù)集是稀疏的,應(yīng)當(dāng)配合使用稀疏矩陣壓縮技術(shù);MOLAP服務(wù)采用兩級存儲表示來處理稠密和稀疏數(shù)據(jù)集:識別較稠密的子立方體并作為數(shù)組結(jié)構(gòu)存儲,而稀疏子立方體使用壓縮技術(shù),提高存儲利用率。

混合OLAP(HOLAP)服務(wù)器:混合ROLAP和MOLAP技術(shù)。

特殊的SQL服務(wù)器。

4.5數(shù)據(jù)泛化:面向?qū)傩缘臍w納

數(shù)據(jù)泛化通過把相對低層的值用較高層的概念替換來匯總數(shù)據(jù),或通過減少維數(shù),在涉及較少的維數(shù)的概念空間匯總數(shù)據(jù)。允許數(shù)據(jù)集在多個抽象層泛化,便于用戶考察數(shù)據(jù)的一般性質(zhì)。

數(shù)據(jù)泛化的形式:概念描述(concept description)產(chǎn)生數(shù)據(jù)的特征和比較描述。對于復(fù)雜的數(shù)據(jù)類型和聚集以及用于控制與自動處理,涉及到面向?qū)傩缘臍w納,可用于復(fù)雜的數(shù)據(jù)類型并依賴數(shù)據(jù)驅(qū)動的泛化過程。

1)數(shù)據(jù)特征的面向?qū)傩缘臍w納

數(shù)據(jù)立方體方法基本上是基于數(shù)據(jù)的物化視圖,通常在數(shù)據(jù)倉庫中余弦計算。概念描述的面向?qū)傩缘臍w納(Attribute-Oriented Induction,AOI),是面向查詢的、基于泛化的、聯(lián)機的數(shù)據(jù)分析處理技術(shù)。

面向?qū)傩缘臍w納的基本思想是:首先使用數(shù)據(jù)庫查詢收集任務(wù)相關(guān)的數(shù)據(jù);接著,通過考察任務(wù)相關(guān)數(shù)據(jù)中每個屬性的不同值的個數(shù)進行泛化。泛化或者通過屬性刪除,或者通過屬性泛化進行。

面向?qū)傩詺w納的基本操作是數(shù)據(jù)泛化,在初始關(guān)系上進行,有兩種方法:屬性刪除(attribute removl)和屬性泛化(attributegeneralization)。

a.屬性刪除:基于如下規(guī)則,如果初始工作關(guān)系的某個屬性有大量不同的值,但是在該屬性上沒有泛化操作符(如該屬性沒有定義概念分層),或者其較高層概念用其他屬性表示,則可將屬性從工作關(guān)系中刪除;

b.屬性泛化:基于如下規(guī)則,如果初始工作關(guān)系的某個屬性有大量不同的值,并且該屬性上存在泛化操作符的集合,則應(yīng)當(dāng)選擇一個泛化操作符,并將它用于該屬性。該規(guī)則基于如下理由:使用泛化操作符泛化工作關(guān)系中元組或規(guī)則的屬性值,將使得規(guī)則涵蓋更多的原數(shù)據(jù)的元組,從而泛化了它所表示的概念。在示例學(xué)習(xí)中成為沿泛化樹攀升或概念樹攀升。

如何界定屬性有大量不同的值?一種技術(shù)就是屬性泛化閾值控制,或者對所有的屬性設(shè)置一個泛化閾值,或者對每個屬性設(shè)置一個閾值。另一種技術(shù)是廣義關(guān)系閾值控制,為廣義關(guān)系設(shè)置一個閾值,如果廣義關(guān)系中不同元組的個數(shù)超過該閾值,則應(yīng)進一步泛化,否則不再泛化。

2)面向?qū)傩詺w納的有效實現(xiàn)

算法:面向?qū)傩詺w納,根據(jù)用戶的數(shù)據(jù)挖掘請求,挖掘關(guān)系數(shù)據(jù)庫中的泛化特征。

輸入:DB,關(guān)系數(shù)據(jù)庫;

????? DMQuery,數(shù)據(jù)挖掘查詢;

????? a_list,屬性列表(包含屬性ai等);

????? Gen(ai),屬性ai上的概念分層或泛化操作符的集合;

????? a_gen_thresh(ai),每個屬性ai的泛化閾值。

輸出:主廣義關(guān)系P。

方法:

?????a.get_task_relevant_data(DMQuery,DB)->W;//工作關(guān)系W存放任務(wù)相關(guān)的數(shù)據(jù)。

????? b.prepare_for_generalization(W);//實現(xiàn)如下

?????????? a)掃描W,收集每個屬性ai的不同值;(如果W過大,可考察W的樣本)

?????????? b)對于每個屬性ai,根據(jù)給定的或默認的屬性閾值,確定ai是否應(yīng)當(dāng)刪除;如果不刪除,

???????????? 則計算它的最小期望層次Li,并確定映射對(v,v*),其中v是W中ai的不同值,而v*是v在層Li上的泛化值。

????? c.generalization(W)->P,通過映射中對應(yīng)的v*替換W中每個值v,累計count并計算所有聚集值,導(dǎo)出主廣義關(guān)系P。有兩種實現(xiàn)方法:

?????????? a)對于每個廣義元組,通過二分檢索將它插入主關(guān)系P中,如果元組中已在P中,則簡單地增加它的count并相應(yīng)地處理其他聚集值;否則,將它插入P。

?????????? b)在大部分情況下,由于主關(guān)系不同值的個數(shù)較少,可以將主關(guān)系編碼,作為m維數(shù)組,其中m是P中的屬性數(shù),而每個維包含對應(yīng)的泛化屬性值。如果有的話,數(shù)組的每個元素存放對應(yīng)的count和其他聚集值。廣義元組的插入通過對應(yīng)的數(shù)組元素上的度量聚集進行。

3)類比較的面向?qū)傩詺w納

有些場景,可能不只要對單個類做屬性歸納,而是要將一個類和其他可比較的類相區(qū)分。類區(qū)分或類比較挖掘區(qū)分目標(biāo)類和它的對比類的描述。目標(biāo)類和對比類必須是可比較的,它們應(yīng)具有相似的維或?qū)傩浴?/p>

如何進行類比較:

a.數(shù)據(jù)收集,通過查詢處理收集數(shù)據(jù)庫中相關(guān)數(shù)據(jù),并把它劃分成一個目標(biāo)類和一個或多個對比類;

b.維相關(guān)分析,如果有多個維,則應(yīng)當(dāng)在這些類上進行維相關(guān)分析,僅選擇與進一步分析高度相關(guān)的維,可使用相關(guān)性度量或基于熵的度量。

c.同步泛化:泛化在目標(biāo)類上進行,泛化到用戶或領(lǐng)域?qū)<抑付ǖ木S閾值控制的層,產(chǎn)生主目標(biāo)類關(guān)系。對比類的概念泛化到與主目標(biāo)類關(guān)系相同的層次,形成主對比類關(guān)系。

d.導(dǎo)出比較的表示:結(jié)果類比較描述可用表、圖或規(guī)則的形式可視化。

與數(shù)據(jù)立方體相比,數(shù)據(jù)特征和泛化的面向?qū)傩缘臍w納方法提供了另一種數(shù)據(jù)泛化方法,不局限于關(guān)系數(shù)據(jù),還可以在空間、多媒體、序列以及其他類型的數(shù)據(jù)集上進行。

4.6小結(jié)

1)數(shù)據(jù)倉庫是面向主題的、集成的、時變的和非易失的有組織的數(shù)據(jù)集合,支持管理決策制定。數(shù)據(jù)倉庫和操作數(shù)據(jù)庫功能不同、數(shù)據(jù)類型不同,二者要分開維護。

2)數(shù)據(jù)倉庫采用三層體系結(jié)構(gòu),底層是數(shù)據(jù)倉庫服務(wù)器,通常是關(guān)系數(shù)據(jù)庫系統(tǒng),中間層是OLAP服務(wù)器,頂層是客戶,包括查詢和報表工具。

3)數(shù)據(jù)倉庫包含加載和刷新倉庫的后端工具和實用程序,涵蓋數(shù)據(jù)提取、數(shù)據(jù)清理、數(shù)據(jù)變換、裝入、刷新和倉庫管理。

4)數(shù)據(jù)倉庫元數(shù)據(jù)是定義倉庫對象的數(shù)據(jù)。元數(shù)據(jù)庫提供了關(guān)于倉庫結(jié)構(gòu),數(shù)據(jù)歷史,匯總使用的算法,從源數(shù)據(jù)到倉庫形式的映射,系統(tǒng)性能,商務(wù)術(shù)語和問題等細節(jié)。

5)通常,多維數(shù)據(jù)模型用于企業(yè)數(shù)據(jù)倉庫和部門數(shù)據(jù)集市的設(shè)計。這種模型采用了星形模式、雪花模式或事實星座模式。多維數(shù)據(jù)模型的核心是數(shù)據(jù)立方體。數(shù)據(jù)立方體由大量事實(或度量)和許多維組成。維是一個組織想要記錄的實體或透視,本質(zhì)上是分層。

6)數(shù)據(jù)立方體由方體的格組成,每個方體對應(yīng)于給定多維數(shù)據(jù)的一個不同級別的匯總。

7)概念分層將屬性或維的值組織成漸進的抽象層,概念分層對于多抽象層上的挖掘是有用的。

8)聯(lián)機分析處理(OLAP)可以在使用多維數(shù)據(jù)模型數(shù)據(jù)倉庫或數(shù)據(jù)集市上進行。典型的OLAP操作包括上卷、下鉆(鉆過、鉆透)、切片和切塊、轉(zhuǎn)軸(旋轉(zhuǎn)),以及統(tǒng)計操作,如秩評定、計算移動平均值和增長率等。使用數(shù)據(jù)立方體結(jié)構(gòu),OLAP操作可以有效地實現(xiàn)。

9)數(shù)據(jù)倉庫用于信息處理(查詢和報表)、分析處理(允許用戶通過OLAP操作在匯總數(shù)據(jù)和細節(jié)數(shù)據(jù)之間導(dǎo)航)和數(shù)據(jù)挖掘(支持知識發(fā)現(xiàn))。基于OLAP的數(shù)據(jù)挖掘稱為多維數(shù)據(jù)挖掘(又稱探索式多維數(shù)據(jù)挖掘、聯(lián)機分析挖掘或OLAM)。它強調(diào)OLAP挖掘的交互式和探測式特點。

10)OLAP服務(wù)器可以是關(guān)系OLAP(LOLAP)、多維OLAP(MOLAP)、或混合OLAP(HOLAP)。ROLAP服務(wù)器使用擴充的關(guān)系DBMS,把多維數(shù)據(jù)上的OLAP操作映射成標(biāo)準(zhǔn)的關(guān)系操作。MOLAP服務(wù)器直接把多維數(shù)據(jù)視圖映射到數(shù)組結(jié)構(gòu)。HOLAP是ROLAP和MOLAP的結(jié)合,如可以對歷史數(shù)據(jù)使用ROLAP,而將頻繁訪問的數(shù)據(jù)放在一個分離的MOLAP存儲中。

11)完全物化是指計算定義數(shù)據(jù)立方體的格中所有的方體,通常需要過多的存儲空間,特別是當(dāng)維數(shù)和相關(guān)聯(lián)的概念分層增長時,引起維災(zāi)難。作為一種替代方案,部分物化是選擇性計算格中的方體子集或子立方體,如冰山立方體,只存放其聚集值大于某個最小支持閾值的立方體單元。

12)使用索引技術(shù),OLAP查詢處理可以更有效地進行。在位圖索引中,每個屬性都有它自己的位圖索引表。位圖索引把連接、聚集和比較操作歸結(jié)成位算術(shù)運算。連接索引登記來自兩個或多個關(guān)系的可連接行,降低了OLAP連接操作的代價。位圖連接索引結(jié)合位圖和連接索引方法,可以進一步加快OLAP查詢處理。

13)數(shù)據(jù)泛化是一個過程,它把數(shù)據(jù)庫中大量任務(wù)相關(guān)的數(shù)據(jù),從相對較低的概念層抽象到較高的概念層。數(shù)據(jù)泛化方法包括基于數(shù)據(jù)立方體的數(shù)據(jù)聚集和面向?qū)傩缘臍w納。概念描述是描述性數(shù)據(jù)挖掘的最基本形式,以簡潔匯總的形式描述給定的任務(wù)相關(guān)數(shù)據(jù)集,提供數(shù)據(jù)的有趣的一般性質(zhì)。概念或類描述由特征和比較或區(qū)分組成。前者匯總并描述稱做目標(biāo)類的數(shù)據(jù)集,而后者匯總并將一個稱做目標(biāo)類數(shù)據(jù)集于稱做對比類的其他數(shù)據(jù)集相區(qū)別。

14)概念特征化可以使用數(shù)據(jù)立方體(基于OLAP)的方法和面向?qū)傩缘臍w納方法實現(xiàn)。都是基于屬性或基于維的泛化的方法。面向?qū)傩詺w納方法包含以下技術(shù):數(shù)據(jù)聚焦、通過屬性刪除或?qū)傩苑夯瘜?shù)據(jù)泛化、計數(shù)和聚集值累計、屬性泛化控制和泛化數(shù)據(jù)可視化。

15)概念比較可以用類似于概念特征的方式,使用面向?qū)傩詺w納或數(shù)據(jù)立方體方法進行。可以量化地比較和對比從目標(biāo)類和對比類泛化的元組。

?

總結(jié)

以上是生活随笔為你收集整理的【数据挖掘笔记四】数据仓库和联机分析处理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。