當(dāng)前位置：首頁 >

【数据挖掘笔记四】数据仓库和联机分析处理

發(fā)布時間：2025/4/16 44 豆豆

生活随笔收集整理的這篇文章主要介紹了【数据挖掘笔记四】数据仓库和联机分析处理小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

4.數(shù)據(jù)倉庫和聯(lián)機分析處理

數(shù)據(jù)倉庫泛化、合并多維空間的數(shù)據(jù)。構(gòu)造數(shù)據(jù)倉庫涉及數(shù)據(jù)清理、數(shù)據(jù)集成和數(shù)據(jù)變換，是數(shù)據(jù)挖掘的預(yù)處理步驟。數(shù)據(jù)倉庫提供聯(lián)系分析處理（OLAP）工具，用于各種粒度的多維數(shù)據(jù)的交互分析，助力數(shù)據(jù)泛化和數(shù)據(jù)挖掘，可以和數(shù)據(jù)挖掘功能集成，如關(guān)聯(lián)、聚類、分類和預(yù)測，用以加強多個抽象層上的交互知識挖掘。

數(shù)據(jù)倉庫是數(shù)據(jù)分析和聯(lián)系數(shù)據(jù)分析處理的重要平臺，并為數(shù)據(jù)挖掘提供有效平臺，構(gòu)造數(shù)據(jù)倉庫和OLAP是知識發(fā)現(xiàn)過程的基本步驟。

4.1數(shù)據(jù)倉庫：基本概念

1）什么是數(shù)據(jù)倉庫

數(shù)據(jù)倉庫是一種數(shù)據(jù)庫，與事務(wù)或操作數(shù)據(jù)庫分別維護。數(shù)據(jù)倉庫系統(tǒng)將各種應(yīng)用系統(tǒng)的數(shù)據(jù)集成在一起，為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實的平臺，對信息處理提供支持。

數(shù)據(jù)倉庫是一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合，支持管理者的決策過程。

?? 面向主題的（subject-oriented）：數(shù)據(jù)倉庫圍繞主題，如顧客、供應(yīng)商、產(chǎn)品和銷售，關(guān)注決策者的數(shù)據(jù)建模與分析，而不是日常操作和事務(wù)處理，因此數(shù)據(jù)倉庫是排除對決策無用的數(shù)據(jù)，而提供特定主題的視圖。

?? 集成的（integrated）：構(gòu)造數(shù)據(jù)倉庫將多個異構(gòu)數(shù)據(jù)源，如關(guān)系數(shù)據(jù)庫、一般文件和聯(lián)機事務(wù)處理記錄集成在一起，使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù)，確保命名約定、編碼結(jié)構(gòu)、屬性度量等的一致性。

?? 時變的（time-variant）：數(shù)據(jù)存儲從歷史的角度提供信息，數(shù)據(jù)倉庫中的關(guān)鍵結(jié)構(gòu)都隱式或顯示地包含時間元素。

?? 非易失的（nonvolatile）：數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù)，所存放的數(shù)據(jù)源于操作環(huán)境下的應(yīng)用數(shù)據(jù)，這種分離機制，使得數(shù)據(jù)倉庫不需要事務(wù)處理、恢復(fù)和并發(fā)控制機制，只需要兩種數(shù)據(jù)訪問操作：數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。

概言之，數(shù)據(jù)倉庫是一種語義上一致的數(shù)據(jù)存儲，作為決策支持數(shù)據(jù)模型的物理實現(xiàn)，并存放企業(yè)戰(zhàn)略決策所需要的信息。數(shù)據(jù)倉庫是一種體系結(jié)構(gòu)，通過將異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)集成在一起而構(gòu)建，支持結(jié)構(gòu)化和/或?qū)ｉT的查詢、分析報告和決策制定。

構(gòu)建和使用數(shù)據(jù)倉庫的過程即建立數(shù)據(jù)倉庫（data warehousing）。數(shù)據(jù)倉庫的構(gòu)建需要數(shù)據(jù)集成、數(shù)據(jù)清理和數(shù)據(jù)統(tǒng)一。數(shù)據(jù)倉庫的使用常涉及決策支持技術(shù)，使知識工人（如經(jīng)理、分析人員或主管）通過數(shù)據(jù)倉庫快捷、方便地得到數(shù)據(jù)的總體視圖，根據(jù)數(shù)據(jù)倉庫中的信息作出準(zhǔn)確的決策。

對于異構(gòu)數(shù)據(jù)庫集成來說，集成多個異構(gòu)的、自治的和分布的數(shù)據(jù)源并維護是一個挑戰(zhàn)。傳統(tǒng)數(shù)據(jù)庫對于異構(gòu)數(shù)據(jù)庫的集成采用查詢驅(qū)動的（query-driven）方法，而數(shù)據(jù)倉庫用更新驅(qū)動（update-driven）方法。

查詢驅(qū)動方法：在多個異構(gòu)數(shù)據(jù)庫上，建立一個包裝程序和一個集成程序或中介程序，當(dāng)查詢在客戶站點提交時，首先使用元數(shù)據(jù)字典對查詢進行轉(zhuǎn)換，將它轉(zhuǎn)換成相應(yīng)異構(gòu)站點上的查詢；然后，將查詢映射和發(fā)送到局部查詢處理器，由不同站點返回的結(jié)果被集成為全局回答；該方法需復(fù)雜的信息過濾和集成處理，并且與局部數(shù)據(jù)源上的處理競爭資源，對于頻繁的查詢，特別是需要聚集操作的操作，開銷大。

更新驅(qū)動方法：將來自多個異構(gòu)源的信息預(yù)先集成，并存儲在數(shù)據(jù)倉庫中，供直接查詢和分析；與聯(lián)機事務(wù)處理數(shù)據(jù)庫不同，數(shù)據(jù)倉庫不包含最近的信息；不過數(shù)據(jù)倉庫為集成的異構(gòu)數(shù)據(jù)庫系統(tǒng)帶來了高性能，因為數(shù)據(jù)被復(fù)制、預(yù)處理、集成、注釋、匯總，并重新組織到一個語義一致的數(shù)據(jù)存儲中；數(shù)據(jù)倉庫的查詢處理不影響在局部數(shù)據(jù)源上進行的處理；數(shù)據(jù)倉庫存儲并集成歷史信息，支持復(fù)雜的多維查詢。

2）操作數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫的區(qū)別

聯(lián)機操作數(shù)據(jù)庫系統(tǒng)的主要任務(wù)是執(zhí)行聯(lián)機事務(wù)和查詢處理，即聯(lián)機事務(wù)處理（Online Transaction Processing，OLTP）。數(shù)據(jù)倉庫系統(tǒng)在數(shù)據(jù)分析和決策方面為用戶或知識工人提供服務(wù)，可用不同的格式組織和提供數(shù)據(jù)，滿足不同用戶的不同需求，即聯(lián)機分析處理（Online Analytical Processing，OLAP）系統(tǒng)。OLTP和OLAP主要區(qū)別：

?? 用戶和系統(tǒng)的面向性：OLTP是面向顧客的，用于事務(wù)和查詢處理；OLAP是面向市場的，用于數(shù)據(jù)分析。

?? 數(shù)據(jù)內(nèi)容：OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù)，數(shù)據(jù)瑣碎難用于決策；OLAP系統(tǒng)管理大量歷史數(shù)據(jù)，提供匯總和聚集機制，并在不同的粒度層上存儲管理信息，用于決策。

?? 數(shù)據(jù)庫設(shè)計：OLTP采用實體-聯(lián)系（E-R）數(shù)據(jù)模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計；而OLAP系統(tǒng)通常采用星形或雪花模型和面向主題的數(shù)據(jù)庫設(shè)計。

?? 視圖：OLTP系統(tǒng)主要關(guān)注企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù)，而不涉及歷史數(shù)據(jù)或不同單位的數(shù)據(jù)；OLAP系統(tǒng)是跨越數(shù)據(jù)庫模式，處理不同單位的信息，以及多個數(shù)據(jù)庫集成的信息，數(shù)據(jù)量巨大，OLAP數(shù)據(jù)也存放在多個存儲介質(zhì)上。

?? 訪問模式：OLTP系統(tǒng)的訪問主要由短的原子事務(wù)組成，需要并發(fā)控制和恢復(fù)機制；OLAP系統(tǒng)的大部分訪問是讀取操作（大部分數(shù)據(jù)倉庫存放歷史數(shù)據(jù)，而不是最新數(shù)據(jù)），并且是復(fù)雜的查詢。

OLTP和OLAP的區(qū)別，包括數(shù)據(jù)庫大小、操作頻繁程度、性能度量等，如下表：

特征	OLTP	OLAP
特性	操作處理	信息處理
面向	事務(wù)	分析
用戶	辦事員、DBA、數(shù)據(jù)庫專業(yè)人員	知識工人，如經(jīng)理、主管、分析人員
功能	日常操作	長期信息需求、決策支持
DB設(shè)計	基于E-R，面向應(yīng)用	星形/雪花、面向主題
數(shù)據(jù)	當(dāng)前的、確保最新	歷史的、跨時間維護
匯總	原始的、高度詳細	匯總的、統(tǒng)一的
視圖	詳細、一般關(guān)系	匯總的、多維的
工作單元	短的、簡單事務(wù)	復(fù)雜查詢
訪問	讀/寫	大多為讀
關(guān)注	數(shù)據(jù)進入	信息輸出
操作	主碼上索引/散列	大量掃描
訪問記錄數(shù)量	數(shù)十	數(shù)百萬
用戶數(shù)	數(shù)千	數(shù)百
DB規(guī)模	GB到高達TB	≥TB
優(yōu)先	高性能、高可用性	高靈活性、終端用戶自治
度量	事務(wù)吞吐量	查詢吞吐量、響應(yīng)時間

3）為什么需要分離的數(shù)據(jù)倉庫

提出問題：為什么不直接在數(shù)據(jù)庫上進行聯(lián)機分析處理，而要單獨去構(gòu)造獨立的數(shù)據(jù)倉庫呢？

分離數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)倉庫系統(tǒng)的主要原因有助于提高兩個系統(tǒng)的性能。操作數(shù)據(jù)庫是為已知的任務(wù)和負載設(shè)計的，如使用主碼索引和散列，檢索特定的記錄，優(yōu)化定制的查詢；而數(shù)據(jù)倉庫系統(tǒng)的查詢是復(fù)雜的，涉及大量數(shù)據(jù)在匯總級的計算，需要特殊的基于多維視圖的數(shù)據(jù)組織、存取方法和實現(xiàn)方法，如果在操作數(shù)據(jù)庫上處理OLAP查詢，會大大降低操作任務(wù)的性能。

分離的原因還因為操作數(shù)據(jù)庫支持多事務(wù)的并發(fā)處理，需并發(fā)控制和恢復(fù)機制（如加鎖和記日志），以確保一致性和事務(wù)的魯棒性；而OLAP只需對匯總和聚集數(shù)據(jù)記錄進行只讀訪問，如果在數(shù)據(jù)倉庫系統(tǒng)上加上并發(fā)控制和恢復(fù)機制，會影響到并行事務(wù)的運行，且降低OLTP系統(tǒng)的吞吐量。

由于兩種系統(tǒng)中數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和用戶都不相同，所以需要分離。決策支持整合來自異構(gòu)源的數(shù)據(jù)，產(chǎn)生高質(zhì)量的、純凈的和集成的數(shù)據(jù)；而操作數(shù)據(jù)則維護詳細的原始事務(wù)數(shù)據(jù)。

4）數(shù)據(jù)倉庫：一種多層體系結(jié)構(gòu)

數(shù)據(jù)倉庫采用三層體系結(jié)構(gòu)：

?? 底層是倉庫數(shù)據(jù)庫服務(wù)器，是一個關(guān)系數(shù)據(jù)庫系統(tǒng)；通過后端工具和實用程序，由操作數(shù)據(jù)庫或其他外部數(shù)據(jù)源提取數(shù)據(jù)放入底層，工具和實用程序進行數(shù)據(jù)提取、清理和變換，以及裝入和刷新，以更新數(shù)據(jù)倉庫；數(shù)據(jù)提取采用信關(guān)（gateway）組件，信關(guān)由基礎(chǔ)DBMS支持，允許客戶程序產(chǎn)生SQL腳本，包括ODBC、OLE-DB和JDBC；底層還包括元數(shù)據(jù)庫，存放關(guān)于數(shù)據(jù)倉庫和它內(nèi)容的信息。

?? 中間層是OLAP服務(wù)器，其典型的實現(xiàn)應(yīng)用關(guān)系OLAP（ROLAP）模型（擴充的關(guān)系DBMS，將多維數(shù)據(jù)上的操作映射為標(biāo)準(zhǔn)的關(guān)系操作），或使用多維OLAP（MOLAP）模型（專門的服務(wù)器，直接實現(xiàn)多維數(shù)據(jù)和操作）。

?? 頂層是前端客戶層，包括查詢和報告工具、分析工具和/或數(shù)據(jù)挖掘工具（如趨勢分析、預(yù)測等）。

??? 5）數(shù)據(jù)倉庫模型：企業(yè)倉庫、數(shù)據(jù)集市和虛擬倉庫

從結(jié)構(gòu)的角度看，有三種數(shù)據(jù)倉庫模型：企業(yè)倉庫、數(shù)據(jù)集市和虛擬倉庫。

?? 企業(yè)倉庫（enterprisewarehouse）：企業(yè)倉庫搜集關(guān)于主題的所有信息，跨越整個企業(yè)，提供企業(yè)范圍內(nèi)的數(shù)據(jù)集成，來自一個或多個操作數(shù)據(jù)庫系統(tǒng)或外部信息提供者，并且是多功能的；通常，包含細節(jié)數(shù)據(jù)和匯總數(shù)據(jù)，可以在傳統(tǒng)的大型機、超級計算機服務(wù)器或并行結(jié)構(gòu)平臺上實現(xiàn)，需要廣泛的商務(wù)建模，需多年累積建設(shè)。

?? 數(shù)據(jù)集市（datamart）：數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個子集，對于特定的用戶群是有用，其范圍限定于選定的主題；數(shù)據(jù)集市可在較低服務(wù)器上實現(xiàn)；根據(jù)數(shù)據(jù)源的不同，分為獨立的和依賴的兩類，在獨立的數(shù)據(jù)集市中，數(shù)據(jù)來自一個或多個操作數(shù)據(jù)庫系統(tǒng)或外部信息提供者，或者來自在一個特定的部門或地區(qū)局部產(chǎn)生的數(shù)據(jù)，依賴的數(shù)據(jù)集市的數(shù)據(jù)直接來自企業(yè)數(shù)據(jù)倉庫。

?? 虛擬倉庫（virtualwarehouse）：虛擬倉庫是操作數(shù)據(jù)庫上視圖的集合；為有效地處理查詢，只有部分匯總視圖被物化，虛擬倉庫易于建立，但需操作數(shù)據(jù)庫服務(wù)器還有余力。

自頂向下開發(fā)企業(yè)倉庫是一種系統(tǒng)的解決方案，能最大限度地減少集成問題，不過費用高、周期長且缺乏靈活性；自底向上的配置獨立的數(shù)據(jù)集市則相對靈活、低花費，不過數(shù)據(jù)集市的集成也會帶來問題。對于開發(fā)數(shù)據(jù)倉庫系統(tǒng)，建議的方法是以遞增、進化的方式實現(xiàn)數(shù)據(jù)倉庫，先定義一個高層次的企業(yè)數(shù)據(jù)模型，在不同的主題和可能的應(yīng)用之間，提供企業(yè)范圍的、一致的、集成的數(shù)據(jù)視圖；其次基于高層次企業(yè)數(shù)據(jù)模型，并行地實現(xiàn)獨立的數(shù)據(jù)集市和企業(yè)數(shù)據(jù)倉庫，也可通過中心服務(wù)器集成不同的數(shù)據(jù)集市，構(gòu)造分布數(shù)據(jù)集市；最后構(gòu)造一個多層數(shù)據(jù)倉庫（multitier data warehouse），企業(yè)倉庫是所有倉庫數(shù)據(jù)的唯一管理者，倉庫數(shù)據(jù)分布在一些依賴的數(shù)據(jù)集市中。

6）數(shù)據(jù)提取、變換和裝入

數(shù)據(jù)倉庫系統(tǒng)使用后端工具和實用程序來加載和刷新它的數(shù)據(jù)，這些工具和程序包含以下功能：

?? 數(shù)據(jù)提取：由多個異構(gòu)的外部數(shù)據(jù)源收集數(shù)據(jù)；

?? 數(shù)據(jù)清理：檢測數(shù)據(jù)中的錯誤，可能時修訂；

?? 數(shù)據(jù)變換：將數(shù)據(jù)由遺產(chǎn)或宿主格式轉(zhuǎn)換成數(shù)據(jù)倉庫格式；

?? 裝入：排序、匯總、合并、計算視圖、檢查完整性，并建立索引和劃分；

?? 刷新：傳播由數(shù)據(jù)源到數(shù)據(jù)倉庫的更新。

??? 除清理、裝入、刷新和元數(shù)據(jù)定義工具外，數(shù)據(jù)倉庫系統(tǒng)還提供一組數(shù)據(jù)倉庫管理工具。數(shù)據(jù)清理和數(shù)據(jù)變換是提高數(shù)據(jù)質(zhì)量，從而提高其后的數(shù)據(jù)挖掘結(jié)果質(zhì)量的重要步驟。

7）元數(shù)據(jù)庫

元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉庫中，元數(shù)據(jù)是定義倉庫對象的數(shù)據(jù)。對于給定的數(shù)據(jù)倉庫的數(shù)據(jù)名和定義，創(chuàng)建元數(shù)據(jù)。其他元數(shù)據(jù)包括對提取數(shù)據(jù)添加的時間標(biāo)簽、提取數(shù)據(jù)的源、被數(shù)據(jù)清理或集成處理添加的缺失字段等。元數(shù)據(jù)庫應(yīng)當(dāng)包括以下內(nèi)容：

?? 數(shù)據(jù)倉庫結(jié)構(gòu)的描述，包括倉庫模式、視圖、維、分層結(jié)構(gòu)、導(dǎo)出數(shù)據(jù)的定義，以及數(shù)據(jù)集市的位置和內(nèi)容。

?? 操作元數(shù)據(jù)，包括數(shù)據(jù)血統(tǒng)（遷移數(shù)據(jù)的歷史和它所用的變換序列）、數(shù)據(jù)疏通（主動的、檔案的或凈化的）和管理信息（倉庫使用的統(tǒng)計量、錯誤報告和審計跟蹤）。

?? 用于匯總的算法，包括度量和維定義算法，數(shù)據(jù)所處的粒度、劃分、主題領(lǐng)域、聚集、匯總、預(yù)定義的查詢和報告。

?? 由操作環(huán)境到數(shù)據(jù)倉庫的映射，包括源數(shù)據(jù)庫及其內(nèi)容，信關(guān)描述，數(shù)據(jù)劃分，數(shù)據(jù)提取、清理、轉(zhuǎn)換規(guī)則和默認值，數(shù)據(jù)刷新和凈化規(guī)則，以及安全性（用戶授權(quán)和存取控制）。

?? 關(guān)于系統(tǒng)性能的數(shù)據(jù)，除刷新、更新和復(fù)制周期的定時和調(diào)度的規(guī)則外，還包括改善數(shù)據(jù)存取和檢索性能的索引和概要。

?? 商務(wù)元數(shù)據(jù)，包括商務(wù)術(shù)語和定義，數(shù)據(jù)擁有者信息和收費策略。

數(shù)據(jù)倉庫包含不同的匯總層，元數(shù)據(jù)是其中一種類型。其他類型包括當(dāng)前的細節(jié)數(shù)據(jù)（幾乎總是在磁盤上）、老的細節(jié)數(shù)據(jù)（通常在三級存儲器上）、稍加匯總的數(shù)據(jù)和高度匯總的數(shù)據(jù)（可以也可以不物理地存入倉庫）。

與數(shù)據(jù)倉庫的其他數(shù)據(jù)相比，元數(shù)據(jù)扮演重要的角色，例如元數(shù)據(jù)用作目錄，幫助決策支持系統(tǒng)分析者對數(shù)據(jù)倉庫的內(nèi)容定位；當(dāng)數(shù)據(jù)由操作環(huán)境到數(shù)據(jù)倉庫轉(zhuǎn)換時，元數(shù)據(jù)作為數(shù)據(jù)映射的指南；對于匯總的算法將當(dāng)前細節(jié)數(shù)據(jù)匯總成稍加綜合的數(shù)據(jù)，或?qū)⑸约泳C合的數(shù)據(jù)匯總成高度綜合的數(shù)據(jù)，元數(shù)據(jù)也起到指南作用。

元數(shù)據(jù)應(yīng)當(dāng)持久存放和管理（即放在磁盤上）。

4.2數(shù)據(jù)倉庫建模：數(shù)據(jù)立方體和OLAP

數(shù)據(jù)倉庫和OLAP工具基于多維數(shù)據(jù)模型，這種模型將數(shù)據(jù)看做數(shù)據(jù)立方體形式。

1）數(shù)據(jù)立方體：一種多維數(shù)據(jù)模型

數(shù)據(jù)立方體（datacube）允許以多維對數(shù)據(jù)建模和觀察，由維和事實定義。維是一個單位想要記錄的透視或?qū)嶓w，與之相關(guān)聯(lián)的表為維表；事實是數(shù)值度量的，事實表包括事實的名稱或度量，以及每個相關(guān)維表的碼。

數(shù)據(jù)立方體是多維數(shù)據(jù)存儲的一種比喻，數(shù)據(jù)的實際物理存儲可以不同于它的邏輯表示。數(shù)據(jù)立方體是n維，不限于3D。數(shù)據(jù)立方體稱做方體（cuboid），給定維的集合，對給定諸維的每個可能的子集產(chǎn)生一個方體，結(jié)果形成方體的格，每個方體在不同的匯總級顯示group by數(shù)據(jù)。方體的格稱做數(shù)據(jù)立方體，存放在最低層匯總的方體稱做基本方體（basecuboid），放在最高層的匯總稱做頂點方體（apex cuboid）。

2）星形、雪花形和事實星座：多維數(shù)據(jù)模型的模式

實體-聯(lián)系數(shù)據(jù)模型用于關(guān)系數(shù)據(jù)庫設(shè)計，數(shù)據(jù)庫模式用實體集和它們之間的聯(lián)系表示，適用于聯(lián)機事務(wù)處理；而數(shù)據(jù)倉庫需要簡明的、面向主題的模式，便于聯(lián)機數(shù)據(jù)分析。

數(shù)據(jù)倉庫的數(shù)據(jù)模型是多維數(shù)據(jù)模型：

a、星形模型starschema

一個大的中心表（事實表），包括大批數(shù)據(jù)且不冗余，一組小的附屬表（維表），每維一個；維表圍繞中心表。

b、雪花模型snowflakeschema

在星形模式基礎(chǔ)上，對某些維表進一步規(guī)范化，將事實表中的數(shù)據(jù)進一步分解到維表中，維表更多類似雪花。雪花模式的維表是規(guī)范化形式，目的是減少冗余，易于維護節(jié)省存儲空間；不過和事實表龐大的數(shù)據(jù)相比，這種空間的節(jié)省可以忽略，且執(zhí)行查詢需要連接更多，影響查詢性能。

c、事實星座

事實星座是多個事實表共享維表。

數(shù)據(jù)倉庫是面向企業(yè)范圍的，適合采用事實星座；數(shù)據(jù)集市是面向具體某個業(yè)務(wù)的，適合采用星形或雪花模式。

3）維：概念分層的作用

概念分層（concepthierarchy）定義一個映射序列，將底層概念集映射到較高層、更一般的概念。

形成數(shù)據(jù)庫模式中屬性的全序或偏序的概念分層稱做模式分層（schema hierarchy）。

通過將給定維或?qū)傩缘闹惦x散化或分組來定義概念分層，產(chǎn)生集合分組分層（set-grouping hierarchy），可以在值的組合之間定義全序或偏序。概念分層可由系統(tǒng)用戶、領(lǐng)域?qū)＜摇⒅R工程師人工提供，或根據(jù)數(shù)據(jù)分布的統(tǒng)計分析自動產(chǎn)生。概念分層是數(shù)據(jù)挖掘準(zhǔn)備的預(yù)處理步驟中重要工作。

4）度量的分類和計算

數(shù)據(jù)立方體的度量（measure）是一個數(shù)值函數(shù)，該函數(shù)可對數(shù)據(jù)立方體空間的每個點求值，通過對給定點的各維-值聚集數(shù)據(jù)，計算該點的度量值。

a、分布的（distributive）

一個聚集函數(shù)可用分布方式計算，則是分布。分布計算是指將數(shù)據(jù)劃分為n個集合，將函數(shù)作用于每個集合得到n個聚集值，其結(jié)果和將函數(shù)用于整體數(shù)據(jù)得到的結(jié)果一樣。如sum()、count()、min()、max()函數(shù)。

b、代數(shù)的（algebraic）

一個聚集函數(shù)能用一個具有M個參數(shù)的代數(shù)函數(shù)計算（M是有界正整數(shù)），而每個參數(shù)可以用一個分布聚集函數(shù)求得，則是代數(shù)的。如avt()=sum()/count()。

c、整體的（holistic）

一個聚集函數(shù)如果描述它的子聚集所需的存儲沒有一個常數(shù)界，則是整體的，包括median()、mode()和rank()，一個度量如果是由整體聚集函數(shù)得到的，則它是整體的。

5）典型的OLAP操作

在多維數(shù)據(jù)模型中，數(shù)據(jù)組織在多維空間，每維包含由概念分層定義的多個抽象層。部分數(shù)據(jù)立方體操作可物化視圖，允許交互查詢和分析數(shù)據(jù)。OLAP操作主要包括：

a、上卷rollup：沿一個維的概念分層向上攀升或通過維歸約在數(shù)據(jù)體立方體上進行聚集。

b、下鉆drilldown：是上卷的逆操作，沿維的概念分層向下或引入附加的維來實現(xiàn)。

c、切片和切塊slice：在給定的立方體的一個維上進行選擇，導(dǎo)致一個子立方體，是切片；切塊（dice）操作通過在兩個或多個維上進行選擇，定義子立方體。

d、轉(zhuǎn)軸（pivot）：也成旋轉(zhuǎn)rotate是一種目視操作，轉(zhuǎn)動數(shù)據(jù)的視角，提供數(shù)據(jù)的替代表示。

e、其他OLAP操作：鉆過（drill-across）執(zhí)行涉及多個事實表的查詢；鉆透（drill-through）操作使用關(guān)系SQL機制，鉆透到數(shù)據(jù)立方體的底層，到后端關(guān)系表。

其他OLAP操作還包括列出表中最高或最低N項，以及計算移動平均值、增長率、利潤、內(nèi)部返回率、貶值、流通轉(zhuǎn)換和統(tǒng)計功能。

OLAP提供了分析建模機制，包括推導(dǎo)比率、方差等以及計算多個維上度量的計算引擎，能在每一粒度和所有維的交上產(chǎn)生匯總、聚集和分層。OLAP也支持預(yù)測、趨勢分析和統(tǒng)計分析函數(shù)原型，OLAP引擎是一種強有力的數(shù)據(jù)分析工具。

6）查詢多維數(shù)據(jù)庫的星網(wǎng)查詢模型

多維數(shù)據(jù)庫查詢可以基于星網(wǎng)模型（starnet model）。星網(wǎng)模型從中心點發(fā)出的射線組成，其中每一條射線代表一個維的概念分層。概念分層上的每個抽象級成為一個足跡（ftooprint），代表諸如上卷、下鉆等OLAP操作可用的粒度。

通過用較高層抽象值替換底層抽象值，概念分層可用于泛化（generalize）數(shù)據(jù)；通過用低層抽象值替換高層抽象值，概念分層可特殊化（specialize）數(shù)據(jù)。

4.3數(shù)據(jù)倉庫的設(shè)計與使用

1）數(shù)據(jù)倉庫的設(shè)計的商務(wù)分析框架

數(shù)據(jù)倉庫有助于提高競爭優(yōu)勢、提高企業(yè)生產(chǎn)力、客戶關(guān)系管理等。為設(shè)計有效的數(shù)據(jù)倉庫，要理解和分析商務(wù)需求，構(gòu)造一個商務(wù)分析框架。對于數(shù)據(jù)倉庫的設(shè)計，有四種不同的視圖：

a、自頂向下視圖；

b、數(shù)據(jù)源視圖：用傳統(tǒng)的數(shù)據(jù)建模技術(shù)，如E-R模型；

c、數(shù)據(jù)倉庫視圖：包括事實表和維表；

d、商務(wù)查詢視圖：從用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù)。

建立和使用數(shù)據(jù)倉庫，涉及：

a、商務(wù)技巧：理解如何存儲和管理數(shù)據(jù)；提取程序，數(shù)據(jù)從操作數(shù)據(jù)庫轉(zhuǎn)換到數(shù)據(jù)倉庫；倉庫刷新軟件，合理地保持數(shù)據(jù)倉庫中的數(shù)據(jù)相對于操作數(shù)據(jù)庫中數(shù)據(jù)的當(dāng)前行；

b、技術(shù)技巧：根據(jù)數(shù)據(jù)倉庫中的歷史信息得到的結(jié)論推導(dǎo)事實，包括發(fā)現(xiàn)模式和趨勢，根據(jù)歷史推斷趨勢和發(fā)現(xiàn)異常或模式漂移的能力；

c、計劃管理技巧；

2）數(shù)據(jù)倉庫的設(shè)計過程

數(shù)據(jù)倉庫有自頂向下、自底向上以及二者混合的三種設(shè)計方法。自頂向下從總體設(shè)計和規(guī)劃開始，自底向上以實驗和原型開始。

數(shù)據(jù)倉庫的設(shè)計和構(gòu)造包含以下步驟：規(guī)劃、需求研究、問題分析、倉庫設(shè)計、數(shù)據(jù)集成和測試、部署數(shù)據(jù)倉庫。開發(fā)方法有：瀑布式方法和螺旋式方法。瀑布式方法在進行下一步之前，每一步都進行結(jié)構(gòu)的和系統(tǒng)的分析，如瀑布一樣，從一級落到一級。螺旋式方法是功能漸增的系統(tǒng)的快速產(chǎn)生，相繼發(fā)布之間的間隔很短，適合數(shù)據(jù)集市的開發(fā)。

數(shù)據(jù)倉庫的實現(xiàn)目標(biāo)應(yīng)當(dāng)是詳細而明確的、可實現(xiàn)的和可測量的。

3）數(shù)據(jù)倉庫用于信息處理

數(shù)據(jù)倉庫工具可分為訪問和檢索工具、數(shù)據(jù)庫報表工具、數(shù)據(jù)分析工具和數(shù)據(jù)挖掘工具。

有三類數(shù)據(jù)倉庫應(yīng)用：信息處理、分析處理、數(shù)據(jù)挖掘。信息處理支持查詢和基本的統(tǒng)計分析；分析處理支持基本的OLAP操作，包括切片和切塊、下鉆和上卷以及轉(zhuǎn)軸；數(shù)據(jù)挖掘支持知識發(fā)現(xiàn)，找出隱藏的模式和關(guān)聯(lián)，構(gòu)造分析模型，進行分類預(yù)測，并使用可視化工具提供挖掘結(jié)果。

OLAP和數(shù)據(jù)挖掘的功能是不相交的，OLAP是數(shù)據(jù)匯總/聚集工具，簡化數(shù)據(jù)分析；而數(shù)據(jù)挖掘則是自動地發(fā)現(xiàn)隱藏在大量數(shù)據(jù)中的隱含模式和有趣知識。

4）從聯(lián)機分析處理到多維數(shù)據(jù)挖掘

數(shù)據(jù)類型包括關(guān)系數(shù)據(jù)、數(shù)據(jù)倉庫中的數(shù)據(jù)、事務(wù)數(shù)據(jù)、時間序列數(shù)據(jù)、空間數(shù)據(jù)、文本數(shù)據(jù)和一般文件。多維數(shù)據(jù)挖掘（又稱探索式多維數(shù)據(jù)挖掘、聯(lián)機分析挖掘或OLAM）把數(shù)據(jù)挖掘于OLAP集成再一起，在多維數(shù)據(jù)庫中發(fā)現(xiàn)知識。

多維數(shù)據(jù)挖掘的重要性，基于數(shù)據(jù)倉庫中數(shù)據(jù)的高質(zhì)量、環(huán)繞數(shù)據(jù)倉庫的信息處理基礎(chǔ)設(shè)施、基于OLAP的多維數(shù)據(jù)探索、數(shù)據(jù)挖掘功能的聯(lián)機選擇。

多維數(shù)據(jù)挖掘強調(diào)數(shù)據(jù)挖掘和OLAP技術(shù)的集成。

4.4數(shù)據(jù)倉庫的實現(xiàn)

數(shù)據(jù)倉庫包含海量數(shù)據(jù)，OLAP服務(wù)器要在數(shù)秒內(nèi)回答決策支持查詢，因此數(shù)據(jù)倉庫系統(tǒng)要支持高效的數(shù)據(jù)立方體計算技術(shù)、存取方法和查詢處理技術(shù)。

1）數(shù)據(jù)立方體的有效計算：概述

多維數(shù)據(jù)分析的核心是有效計算許多維集合上的聚集，即SQL上的group by。每個分組用一個方體表示，分組的集合形成定義數(shù)據(jù)立方體的方體的格。

compute cube操作在操作指定的維的所有子集上計算聚集，需要很大存儲空間。不包含分組的SQL查詢是0維操作；包含一個分組的SQL查詢是一維操作；在n維上的一個立方體操作等價于一組分組語句，每個對應(yīng)于n個維的一個子集，立方體操作是分組操作的n維推廣。

對于不同的查詢，聯(lián)機分析錘煉需要訪問不同的方體，能提前計算所有的或者至少一部分方體，可以加快響應(yīng)時間，避免冗余計算，當(dāng)然是犧牲存儲空間。聚集的預(yù)計算，在維較多且維有關(guān)聯(lián)的概念分層時，存儲需求非常大，造成維災(zāi)難（curse of dimensionality）。

n維數(shù)據(jù)立方體的方體總數(shù)公式：，加1是包括虛擬的頂層。給定基本方體，物化有三種選擇：不物化、完全物化、部分物化。不物化就是不預(yù)先計算任何非基本方體，查詢的實時計算代價高昂；而完全物化則是預(yù)先計算所有方體，需要海量存儲空間；部分物化是有選擇地計算方體集中一個適當(dāng)?shù)淖蛹瘉?#xff0c;要考慮三個因素，第一是確定要物化的方體子集或子立方體，第二是在查詢處理時利用物化的方體或子立方體，第三在裝入和刷新時有效地更新物化的方體或子立方體。

有些OLAP產(chǎn)品也采用啟發(fā)式方法來進行方體或子立方體的選擇，最佳效果就是所物化的子集，都能被其他所引用，這就提出冰山立方體（iceberg cube）。冰山立方體是一個數(shù)據(jù)立方體，只存放其聚集值大于某個最小支持閾值的立方體單元。還有一種策略是物化一個外殼立方體（shell cube），預(yù)計算數(shù)據(jù)立方體中少量的維的方體，作臨時查詢用。

2）索引OLAP數(shù)據(jù)：位圖索引和連接索引

要提高查詢速度，數(shù)據(jù)倉庫系統(tǒng)除了物化立方體（實際就是聚集預(yù)計算，也可以理解為視圖的物化），還可以支持索引結(jié)構(gòu)。支持索引結(jié)構(gòu)有兩種：

a、位圖索引（bitmapindexing），允許在數(shù)據(jù)立方體中快速搜索。在給定屬性的位圖索引中，屬性域中的每個值v，有一個不同的位向量Bv，如屬性域中包含n個值，則需n位向量，如果給定行在該屬性域中有值v，則位向量值為1，否則為0，適合屬性域值是離散的情況。、

與散列和樹索引相比，位圖索引具有優(yōu)勢。對于基數(shù)較小的值域特別有用，因為比較、連接和聚集操作都簡化成位算術(shù)計算，大大減少時間；而且字符串用單個進位表示，降低了空間和IO開銷。對于基數(shù)較高的值域，可使用壓縮技術(shù)，再用位圖索引。

b、連接索引（joinindexing）在關(guān)系數(shù)據(jù)庫查詢有應(yīng)用。連接索引登記來自關(guān)系數(shù)據(jù)庫的兩個關(guān)系的可連接行，連接索引記錄能夠識別可連接的元組，不比執(zhí)行開銷較大的連接操作。對于維護來自可連接的關(guān)系的外碼（一個關(guān)系模式中形成另一個關(guān)系模式主碼的屬性集）和與之匹配的主碼的聯(lián)系，連接索引比較有用。

3）OLAP查詢的有效處理

物化視圖和構(gòu)造OLAP索引結(jié)構(gòu)的目的是加快數(shù)據(jù)立方體查詢處理的速度。給定物化的視圖，查詢按照如下步驟進行：

確定哪些操作應(yīng)當(dāng)在可利用的方體上執(zhí)行；確定相關(guān)操作應(yīng)當(dāng)使用哪些物化的方體。

4）OLAP服務(wù)器結(jié)構(gòu)：ROLAP、MOLAP、HOLAP的比較

用于OLAP處理的數(shù)據(jù)倉庫服務(wù)器的實現(xiàn)包括：

關(guān)系OLAP（ROLAP）服務(wù)器，介于后端服務(wù)器和前端工具之間，使用關(guān)系或擴充關(guān)系的DBMS存儲并管理數(shù)據(jù)倉庫數(shù)據(jù)。

多維OLAP（MOLAP）服務(wù)器，基于數(shù)組的多維存儲引擎，支持數(shù)據(jù)的多維視圖；將多維視圖直接映射到數(shù)據(jù)立方體數(shù)組結(jié)構(gòu)，使用數(shù)據(jù)立方體能對預(yù)計算的匯總數(shù)據(jù)快速索引，如果數(shù)據(jù)集是稀疏的，應(yīng)當(dāng)配合使用稀疏矩陣壓縮技術(shù)；MOLAP服務(wù)采用兩級存儲表示來處理稠密和稀疏數(shù)據(jù)集：識別較稠密的子立方體并作為數(shù)組結(jié)構(gòu)存儲，而稀疏子立方體使用壓縮技術(shù)，提高存儲利用率。

混合OLAP（HOLAP）服務(wù)器：混合ROLAP和MOLAP技術(shù)。

特殊的SQL服務(wù)器。

4.5數(shù)據(jù)泛化：面向?qū)傩缘臍w納

數(shù)據(jù)泛化通過把相對低層的值用較高層的概念替換來匯總數(shù)據(jù)，或通過減少維數(shù)，在涉及較少的維數(shù)的概念空間匯總數(shù)據(jù)。允許數(shù)據(jù)集在多個抽象層泛化，便于用戶考察數(shù)據(jù)的一般性質(zhì)。

數(shù)據(jù)泛化的形式：概念描述（concept description）產(chǎn)生數(shù)據(jù)的特征和比較描述。對于復(fù)雜的數(shù)據(jù)類型和聚集以及用于控制與自動處理，涉及到面向?qū)傩缘臍w納，可用于復(fù)雜的數(shù)據(jù)類型并依賴數(shù)據(jù)驅(qū)動的泛化過程。

1）數(shù)據(jù)特征的面向?qū)傩缘臍w納

數(shù)據(jù)立方體方法基本上是基于數(shù)據(jù)的物化視圖，通常在數(shù)據(jù)倉庫中余弦計算。概念描述的面向?qū)傩缘臍w納（Attribute-Oriented Induction，AOI），是面向查詢的、基于泛化的、聯(lián)機的數(shù)據(jù)分析處理技術(shù)。

面向?qū)傩缘臍w納的基本思想是：首先使用數(shù)據(jù)庫查詢收集任務(wù)相關(guān)的數(shù)據(jù)；接著，通過考察任務(wù)相關(guān)數(shù)據(jù)中每個屬性的不同值的個數(shù)進行泛化。泛化或者通過屬性刪除，或者通過屬性泛化進行。

面向?qū)傩詺w納的基本操作是數(shù)據(jù)泛化，在初始關(guān)系上進行，有兩種方法：屬性刪除（attribute removl）和屬性泛化（attributegeneralization）。

a.屬性刪除：基于如下規(guī)則，如果初始工作關(guān)系的某個屬性有大量不同的值，但是在該屬性上沒有泛化操作符（如該屬性沒有定義概念分層），或者其較高層概念用其他屬性表示，則可將屬性從工作關(guān)系中刪除；

b.屬性泛化：基于如下規(guī)則，如果初始工作關(guān)系的某個屬性有大量不同的值，并且該屬性上存在泛化操作符的集合，則應(yīng)當(dāng)選擇一個泛化操作符，并將它用于該屬性。該規(guī)則基于如下理由：使用泛化操作符泛化工作關(guān)系中元組或規(guī)則的屬性值，將使得規(guī)則涵蓋更多的原數(shù)據(jù)的元組，從而泛化了它所表示的概念。在示例學(xué)習(xí)中成為沿泛化樹攀升或概念樹攀升。

如何界定屬性有大量不同的值？一種技術(shù)就是屬性泛化閾值控制，或者對所有的屬性設(shè)置一個泛化閾值，或者對每個屬性設(shè)置一個閾值。另一種技術(shù)是廣義關(guān)系閾值控制，為廣義關(guān)系設(shè)置一個閾值，如果廣義關(guān)系中不同元組的個數(shù)超過該閾值，則應(yīng)進一步泛化，否則不再泛化。

2）面向?qū)傩詺w納的有效實現(xiàn)

算法：面向?qū)傩詺w納，根據(jù)用戶的數(shù)據(jù)挖掘請求，挖掘關(guān)系數(shù)據(jù)庫中的泛化特征。

輸入：DB，關(guān)系數(shù)據(jù)庫；

????? DMQuery，數(shù)據(jù)挖掘查詢；

????? a_list，屬性列表（包含屬性a_i等）；

????? Gen(a_i),屬性a_i上的概念分層或泛化操作符的集合；

????? a_gen_thresh(a_i)，每個屬性a_i的泛化閾值。

輸出：主廣義關(guān)系P。

方法：

?????a.get_task_relevant_data(DMQuery,DB)->W；//工作關(guān)系W存放任務(wù)相關(guān)的數(shù)據(jù)。

????? b.prepare_for_generalization(W);//實現(xiàn)如下

?????????? a)掃描W，收集每個屬性a_i的不同值；（如果W過大，可考察W的樣本）

?????????? b)對于每個屬性a_i，根據(jù)給定的或默認的屬性閾值，確定a_i是否應(yīng)當(dāng)刪除；如果不刪除，

???????????? 則計算它的最小期望層次L_i，并確定映射對（v,v*），其中v是W中a_i的不同值，而v*是v在層L_i上的泛化值。

????? c.generalization(W)->P，通過映射中對應(yīng)的v*替換W中每個值v，累計count并計算所有聚集值，導(dǎo)出主廣義關(guān)系P。有兩種實現(xiàn)方法：

?????????? a)對于每個廣義元組，通過二分檢索將它插入主關(guān)系P中，如果元組中已在P中，則簡單地增加它的count并相應(yīng)地處理其他聚集值；否則，將它插入P。

?????????? b)在大部分情況下，由于主關(guān)系不同值的個數(shù)較少，可以將主關(guān)系編碼，作為m維數(shù)組，其中m是P中的屬性數(shù)，而每個維包含對應(yīng)的泛化屬性值。如果有的話，數(shù)組的每個元素存放對應(yīng)的count和其他聚集值。廣義元組的插入通過對應(yīng)的數(shù)組元素上的度量聚集進行。

3）類比較的面向?qū)傩詺w納

有些場景，可能不只要對單個類做屬性歸納，而是要將一個類和其他可比較的類相區(qū)分。類區(qū)分或類比較挖掘區(qū)分目標(biāo)類和它的對比類的描述。目標(biāo)類和對比類必須是可比較的，它們應(yīng)具有相似的維或?qū)傩浴?/p>

如何進行類比較：

a.數(shù)據(jù)收集，通過查詢處理收集數(shù)據(jù)庫中相關(guān)數(shù)據(jù)，并把它劃分成一個目標(biāo)類和一個或多個對比類；

b.維相關(guān)分析，如果有多個維，則應(yīng)當(dāng)在這些類上進行維相關(guān)分析，僅選擇與進一步分析高度相關(guān)的維，可使用相關(guān)性度量或基于熵的度量。

c.同步泛化：泛化在目標(biāo)類上進行，泛化到用戶或領(lǐng)域?qū)＜抑付ǖ木S閾值控制的層，產(chǎn)生主目標(biāo)類關(guān)系。對比類的概念泛化到與主目標(biāo)類關(guān)系相同的層次，形成主對比類關(guān)系。

d.導(dǎo)出比較的表示：結(jié)果類比較描述可用表、圖或規(guī)則的形式可視化。

與數(shù)據(jù)立方體相比，數(shù)據(jù)特征和泛化的面向?qū)傩缘臍w納方法提供了另一種數(shù)據(jù)泛化方法，不局限于關(guān)系數(shù)據(jù)，還可以在空間、多媒體、序列以及其他類型的數(shù)據(jù)集上進行。

4.6小結(jié)

1）數(shù)據(jù)倉庫是面向主題的、集成的、時變的和非易失的有組織的數(shù)據(jù)集合，支持管理決策制定。數(shù)據(jù)倉庫和操作數(shù)據(jù)庫功能不同、數(shù)據(jù)類型不同，二者要分開維護。

2）數(shù)據(jù)倉庫采用三層體系結(jié)構(gòu)，底層是數(shù)據(jù)倉庫服務(wù)器，通常是關(guān)系數(shù)據(jù)庫系統(tǒng)，中間層是OLAP服務(wù)器，頂層是客戶，包括查詢和報表工具。

3）數(shù)據(jù)倉庫包含加載和刷新倉庫的后端工具和實用程序，涵蓋數(shù)據(jù)提取、數(shù)據(jù)清理、數(shù)據(jù)變換、裝入、刷新和倉庫管理。

4）數(shù)據(jù)倉庫元數(shù)據(jù)是定義倉庫對象的數(shù)據(jù)。元數(shù)據(jù)庫提供了關(guān)于倉庫結(jié)構(gòu)，數(shù)據(jù)歷史，匯總使用的算法，從源數(shù)據(jù)到倉庫形式的映射，系統(tǒng)性能，商務(wù)術(shù)語和問題等細節(jié)。

5）通常，多維數(shù)據(jù)模型用于企業(yè)數(shù)據(jù)倉庫和部門數(shù)據(jù)集市的設(shè)計。這種模型采用了星形模式、雪花模式或事實星座模式。多維數(shù)據(jù)模型的核心是數(shù)據(jù)立方體。數(shù)據(jù)立方體由大量事實（或度量）和許多維組成。維是一個組織想要記錄的實體或透視，本質(zhì)上是分層。

6）數(shù)據(jù)立方體由方體的格組成，每個方體對應(yīng)于給定多維數(shù)據(jù)的一個不同級別的匯總。

7）概念分層將屬性或維的值組織成漸進的抽象層，概念分層對于多抽象層上的挖掘是有用的。

8）聯(lián)機分析處理（OLAP）可以在使用多維數(shù)據(jù)模型數(shù)據(jù)倉庫或數(shù)據(jù)集市上進行。典型的OLAP操作包括上卷、下鉆（鉆過、鉆透）、切片和切塊、轉(zhuǎn)軸（旋轉(zhuǎn)），以及統(tǒng)計操作，如秩評定、計算移動平均值和增長率等。使用數(shù)據(jù)立方體結(jié)構(gòu)，OLAP操作可以有效地實現(xiàn)。

9）數(shù)據(jù)倉庫用于信息處理（查詢和報表）、分析處理（允許用戶通過OLAP操作在匯總數(shù)據(jù)和細節(jié)數(shù)據(jù)之間導(dǎo)航）和數(shù)據(jù)挖掘（支持知識發(fā)現(xiàn)）。基于OLAP的數(shù)據(jù)挖掘稱為多維數(shù)據(jù)挖掘（又稱探索式多維數(shù)據(jù)挖掘、聯(lián)機分析挖掘或OLAM）。它強調(diào)OLAP挖掘的交互式和探測式特點。

10）OLAP服務(wù)器可以是關(guān)系OLAP(LOLAP)、多維OLAP(MOLAP)、或混合OLAP(HOLAP)。ROLAP服務(wù)器使用擴充的關(guān)系DBMS，把多維數(shù)據(jù)上的OLAP操作映射成標(biāo)準(zhǔn)的關(guān)系操作。MOLAP服務(wù)器直接把多維數(shù)據(jù)視圖映射到數(shù)組結(jié)構(gòu)。HOLAP是ROLAP和MOLAP的結(jié)合，如可以對歷史數(shù)據(jù)使用ROLAP，而將頻繁訪問的數(shù)據(jù)放在一個分離的MOLAP存儲中。

11）完全物化是指計算定義數(shù)據(jù)立方體的格中所有的方體，通常需要過多的存儲空間，特別是當(dāng)維數(shù)和相關(guān)聯(lián)的概念分層增長時，引起維災(zāi)難。作為一種替代方案，部分物化是選擇性計算格中的方體子集或子立方體，如冰山立方體，只存放其聚集值大于某個最小支持閾值的立方體單元。

12）使用索引技術(shù)，OLAP查詢處理可以更有效地進行。在位圖索引中，每個屬性都有它自己的位圖索引表。位圖索引把連接、聚集和比較操作歸結(jié)成位算術(shù)運算。連接索引登記來自兩個或多個關(guān)系的可連接行，降低了OLAP連接操作的代價。位圖連接索引結(jié)合位圖和連接索引方法，可以進一步加快OLAP查詢處理。

13）數(shù)據(jù)泛化是一個過程，它把數(shù)據(jù)庫中大量任務(wù)相關(guān)的數(shù)據(jù)，從相對較低的概念層抽象到較高的概念層。數(shù)據(jù)泛化方法包括基于數(shù)據(jù)立方體的數(shù)據(jù)聚集和面向?qū)傩缘臍w納。概念描述是描述性數(shù)據(jù)挖掘的最基本形式，以簡潔匯總的形式描述給定的任務(wù)相關(guān)數(shù)據(jù)集，提供數(shù)據(jù)的有趣的一般性質(zhì)。概念或類描述由特征和比較或區(qū)分組成。前者匯總并描述稱做目標(biāo)類的數(shù)據(jù)集，而后者匯總并將一個稱做目標(biāo)類數(shù)據(jù)集于稱做對比類的其他數(shù)據(jù)集相區(qū)別。

14）概念特征化可以使用數(shù)據(jù)立方體（基于OLAP）的方法和面向?qū)傩缘臍w納方法實現(xiàn)。都是基于屬性或基于維的泛化的方法。面向?qū)傩詺w納方法包含以下技術(shù)：數(shù)據(jù)聚焦、通過屬性刪除或?qū)傩苑夯瘜?shù)據(jù)泛化、計數(shù)和聚集值累計、屬性泛化控制和泛化數(shù)據(jù)可視化。

15）概念比較可以用類似于概念特征的方式，使用面向?qū)傩詺w納或數(shù)據(jù)立方體方法進行。可以量化地比較和對比從目標(biāo)類和對比類泛化的元組。

總結(jié)

以上是生活随笔為你收集整理的【数据挖掘笔记四】数据仓库和联机分析处理的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【正一专栏】马蓉到底对王宝强还有啥感情？
下一篇：【数据挖掘知识点三】大数定理与中心极限定