日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘之数据仓库详述

發(fā)布時(shí)間:2024/8/1 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据挖掘之数据仓库详述 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

數(shù)據(jù)倉(cāng)庫和數(shù)據(jù)挖掘的OLAP 技術(shù)

構(gòu)造數(shù)據(jù)倉(cāng)庫涉及數(shù)據(jù)清理和數(shù)據(jù)集成,可以看作數(shù)據(jù)挖掘的一個(gè)重要預(yù)處理步驟。此外,數(shù)據(jù)倉(cāng)庫提供聯(lián)機(jī)分析處理(OLAP)工具,用于各種粒度的多維數(shù)據(jù)分析,有利于有效的數(shù)據(jù)挖掘。進(jìn)一步講,許多其它數(shù)據(jù)挖掘功能,如分類、預(yù)測(cè)、關(guān)聯(lián)、聚集,都可以與 OLAP 操作集成,以加強(qiáng)多個(gè)抽象層上的交互知識(shí)挖掘。因此,數(shù)據(jù)倉(cāng)庫已經(jīng)成為數(shù)據(jù)分析和聯(lián)機(jī)數(shù)據(jù)分析處理日趨重要的平臺(tái),并將為數(shù)據(jù)挖掘提供有效的平臺(tái)。在系統(tǒng)地介紹數(shù)據(jù)挖掘技術(shù)之前,我們概括地介紹數(shù)據(jù)倉(cāng)庫技術(shù)。對(duì)于理解數(shù)據(jù)挖掘技術(shù),這種概述是必要的。

本章,你將學(xué)習(xí)數(shù)據(jù)倉(cāng)庫和 OLAP 技術(shù)使用的基本概念、一般結(jié)構(gòu)和主要實(shí)現(xiàn)技術(shù),以及它們與數(shù)據(jù)挖掘的聯(lián)系。

?

什么是數(shù)據(jù)倉(cāng)庫?

數(shù)據(jù)倉(cāng)庫是一個(gè)面向主題的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合,支持管理決策制定。

1???? 面向主題的:數(shù)據(jù)倉(cāng)庫圍繞一些主題,如顧客、供應(yīng)商、產(chǎn)品和銷售組織。數(shù)據(jù)倉(cāng)庫關(guān)注決策者的數(shù)據(jù)建模與分析,而不是構(gòu)造組織機(jī)構(gòu)的日常操作和事務(wù)處理。因此,數(shù)據(jù)倉(cāng)庫排除對(duì)于決策無用的數(shù)據(jù),提供特定主題的簡(jiǎn)明視圖。

2???? 集成的:通常,構(gòu)造數(shù)據(jù)倉(cāng)庫是將多個(gè)異種數(shù)據(jù)源,如關(guān)系數(shù)據(jù)庫、一般文件和聯(lián)機(jī)事務(wù)處理記錄,集成在一起。使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定、編碼結(jié)構(gòu)、屬性度量的一致性。

3???? 時(shí)變的:數(shù)據(jù)存儲(chǔ)從歷史的角度(例如,過去 5-10 年)提供信息。數(shù)據(jù)倉(cāng)庫中的關(guān)鍵結(jié)構(gòu),隱式或顯式地包含時(shí)間元素。

4???? 非易失的:數(shù)據(jù)倉(cāng)庫總是物理地分離存放數(shù)據(jù);這些數(shù)據(jù)源于操作環(huán)境下的應(yīng)用數(shù)據(jù)。由于這種分離,數(shù)據(jù)倉(cāng)庫不需要事務(wù)處理、恢復(fù)和并行控制機(jī)制。通常,它只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。

概言之,數(shù)據(jù)倉(cāng)庫是一種語義上一致的數(shù)據(jù)存儲(chǔ),它充當(dāng)決策支持?jǐn)?shù)據(jù)模型的物理實(shí)現(xiàn),并存放企業(yè)決策所需信息。數(shù)據(jù)倉(cāng)庫也常常被看作一種體系結(jié)構(gòu),通過將異種數(shù)據(jù)源中的數(shù)據(jù)集成在一起而構(gòu)造,支持結(jié)構(gòu)化和啟發(fā)式查詢、分析報(bào)告和決策制定。

?

數(shù)據(jù)倉(cāng)庫的構(gòu)造需要數(shù)據(jù)集成、數(shù)據(jù)清理、和數(shù)據(jù)統(tǒng)一。利用數(shù)據(jù)倉(cāng)庫常常需要一些決策支持技術(shù)。這使得“知識(shí)工人” (例如,經(jīng)理、分析人員和主管)能夠使用數(shù)據(jù)倉(cāng)庫,快捷、方便地得到數(shù)據(jù)的總體視圖,根據(jù)數(shù)據(jù)倉(cāng)庫中的信息作出準(zhǔn)確的決策。

對(duì)于異種數(shù)據(jù)庫的集成,傳統(tǒng)的數(shù)據(jù)庫做法是:在多個(gè)異種數(shù)據(jù)庫上,建立一個(gè)包裝程序和一個(gè)集成程序(或仲裁程序)。這方面的例子包括 IBM 的數(shù)據(jù)連接程序 (Data Joiner) Informix的數(shù)據(jù)刀(DataBlade)。當(dāng)一個(gè)查詢提交客戶站點(diǎn),首先使用元數(shù)據(jù)字典對(duì)查詢進(jìn)行轉(zhuǎn)換,將它轉(zhuǎn)換成相應(yīng)異種站點(diǎn)上的查詢。然后,將這些查詢映射和發(fā)送到局部查詢處理器。由不同站點(diǎn)返回的結(jié)果被集成為全局回答。這種查詢驅(qū)動(dòng)的方法需要復(fù)雜的信息過濾和集成處理,并且與局部數(shù)據(jù)源上的處理競(jìng)爭(zhēng)資源。這種方法是低效的,并且對(duì)于頻繁的查詢,特別是需要聚集操作的查詢,開銷很大。

對(duì)于異種數(shù)據(jù)庫集成的傳統(tǒng)方法,數(shù)據(jù)倉(cāng)庫提供了一個(gè)有趣的替代方案。數(shù)據(jù)倉(cāng)庫使用更新驅(qū)動(dòng)的方法,而不是查詢驅(qū)動(dòng)的方法。這種方法將來自多個(gè)異種源的信息預(yù)先集成,并存儲(chǔ)在數(shù)據(jù)倉(cāng)庫中,供直接查詢和分析。與聯(lián)機(jī)事務(wù)處理數(shù)據(jù)庫不同,數(shù)據(jù)倉(cāng)庫不包含最近的信息。然而,數(shù)據(jù)倉(cāng)庫為集成的異種數(shù)據(jù)庫系統(tǒng)帶來了高性能,因?yàn)閿?shù)據(jù)被拷貝、預(yù)處理、集成、注釋、匯總,并重新組織到一個(gè)語義一致的數(shù)據(jù)存儲(chǔ)中。在數(shù)據(jù)倉(cāng)庫中進(jìn)行的查詢處理并不影響在局部源上進(jìn)行的處理。此外,數(shù)據(jù)倉(cāng)庫存儲(chǔ)并集成歷史信息,支持復(fù)雜的多維查詢。這樣,建立數(shù)據(jù)倉(cāng)庫在工業(yè)界已非常流行。

?

操作數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉(cāng)庫的區(qū)別

聯(lián)機(jī)操作數(shù)據(jù)庫系統(tǒng)的主要任務(wù)是執(zhí)行聯(lián)機(jī)事務(wù)和查詢處理。這種系統(tǒng)稱為聯(lián)機(jī)事務(wù)處理(OLTP)系統(tǒng)。它們涵蓋了一個(gè)組織的大部分日常操作,如購(gòu)買、庫存、制造、銀行、工資、注冊(cè)、記帳等。另一方面,數(shù)據(jù)倉(cāng)庫系統(tǒng)在數(shù)據(jù)分析和決策方面為用戶或“知識(shí)工人”提供服務(wù)。這種系統(tǒng)可以用不同的格式組織和提供數(shù)據(jù),以便滿足不同用戶的形形色色需求。這種系統(tǒng)稱為聯(lián)機(jī)分析處理(OLAP)系統(tǒng)。

OLTP OLAP的主要區(qū)別概述如下。

1???? 用戶和系統(tǒng)的面向性:OLTP 是面向顧客的,用于辦事員、客戶、和信息技術(shù)專業(yè)人員的事務(wù)和查詢處理。OLAP 是面向市場(chǎng)的,用于知識(shí)工人(包括經(jīng)理、主管、和分析人員)的數(shù)據(jù)分析。

2???? 數(shù)據(jù)內(nèi)容:OLTP 系統(tǒng)管理當(dāng)前數(shù)據(jù)。通常,這種數(shù)據(jù)太瑣碎,難以方便地用于決策。OLAP 系統(tǒng)管理大量歷史數(shù)據(jù),提供匯總和聚集機(jī)制,并在不同的粒度級(jí)別上存儲(chǔ)和管理信息。這些特點(diǎn)使得數(shù)據(jù)容易用于見多識(shí)廣的決策。

3???? 數(shù)據(jù)庫設(shè)計(jì):通常,OLTP 系統(tǒng)采用實(shí)體-聯(lián)系(ER)模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計(jì)。而 OLAP 系統(tǒng)通常采用星形或雪花模型(2.2.2小節(jié)討論)和面向主題的數(shù)據(jù)庫設(shè)計(jì)。

4???? 視圖:OLTP系統(tǒng)主要關(guān)注一個(gè)企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù),而不涉及歷史數(shù)據(jù)或不同組織的數(shù)據(jù)。相比之下,由于組織的變化,OLAP 系統(tǒng)常常跨越數(shù)據(jù)庫模式的多個(gè)版本。OLAP 系統(tǒng)也處理來自不同組織的信息,由多個(gè)數(shù)據(jù)存儲(chǔ)集成的信息。由于數(shù)據(jù)量巨大,OLAP 數(shù)據(jù)也存放在多個(gè)存儲(chǔ)介質(zhì)上。

5? 訪問模式:OLTP 系統(tǒng)的訪問主要由短的、原子事務(wù)組成。這種系統(tǒng)需要并行控制和恢復(fù)機(jī)制。然而,對(duì) OLAP 系統(tǒng)的訪問大部分是只讀操作(由于大部分?jǐn)?shù)據(jù)倉(cāng)庫存放歷史數(shù)據(jù),而不是當(dāng)前數(shù)據(jù)),盡管許多可能是復(fù)雜的查詢。

OLTP OLAP 的其它區(qū)別包括數(shù)據(jù)庫大小、操作的頻繁程度、性能度量等。

?

為什么需要一個(gè)分離的數(shù)據(jù)倉(cāng)庫

“既然操作數(shù)據(jù)庫存放了大量數(shù)據(jù)”,你注意到,“為什么不直接在這種數(shù)據(jù)庫上進(jìn)行聯(lián)機(jī)分析處理,而是另外花費(fèi)時(shí)間和資源去構(gòu)造一個(gè)分離的數(shù)據(jù)倉(cāng)庫?”分離的主要原因是提高兩個(gè)系統(tǒng)的性能。操作數(shù)據(jù)庫是為已知的任務(wù)和負(fù)載設(shè)計(jì)的,如使用主關(guān)鍵字索引和散列,檢索特定的記錄,和優(yōu)化“罐裝的”查詢。另一方面,數(shù)據(jù)倉(cāng)庫的查詢通常是復(fù)雜的,涉及大量數(shù)據(jù)在匯總級(jí)的計(jì)算,可能需要特殊的數(shù)據(jù)組織、存取方法和基于多維視圖的實(shí)現(xiàn)方法。在操作數(shù)據(jù)庫上處理 OLAP查詢,可能會(huì)大大降低操作任務(wù)的性能。

此外,操作數(shù)據(jù)庫支持多事務(wù)的并行處理,需要加鎖和日志等并行控制和恢復(fù)機(jī)制,以確保一致性和事務(wù)的強(qiáng)健性。通常,OLAP查詢只需要對(duì)數(shù)據(jù)記錄進(jìn)行只讀訪問,以進(jìn)行匯總和聚集。如果將并行控制和恢復(fù)機(jī)制用于這種 OLAP 操作,就會(huì)危害并行事務(wù)的運(yùn)行,從而大大降低 OLTP 系統(tǒng)的吞吐量。

最后,數(shù)據(jù)倉(cāng)庫與操作數(shù)據(jù)庫分離是由于這兩種系統(tǒng)中數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和用法都不相同。決策支持需要?dú)v史數(shù)據(jù),而操作數(shù)據(jù)庫一般不維護(hù)歷史數(shù)據(jù)。在這種情況下,操作數(shù)據(jù)庫中的數(shù)據(jù)盡管很豐富,但對(duì)于決策,常常還是遠(yuǎn)遠(yuǎn)不夠的。決策支持需要將來自異種源的數(shù)據(jù)統(tǒng)一(如,聚集和匯總),產(chǎn)生高質(zhì)量的、純凈的和集成的數(shù)據(jù)。相比之下,操作數(shù)據(jù)庫只維護(hù)詳細(xì)的原始數(shù)據(jù)(如事務(wù)),這些數(shù)據(jù)在進(jìn)行分析之前需要統(tǒng)一。由于兩個(gè)系統(tǒng)提供很不相同的功能,需要不同類型的數(shù)據(jù),因此需要維護(hù)分離的數(shù)據(jù)庫。然而,許多關(guān)系數(shù)據(jù)庫管理系統(tǒng)賣主正開始優(yōu)化這種系統(tǒng),使之支持 OLAP查詢。隨著這一趨勢(shì)的繼續(xù),OLTP OLAP 系統(tǒng)之間的分離可望消失。

?

數(shù)據(jù)倉(cāng)庫的系統(tǒng)結(jié)構(gòu)

本節(jié),我們討論數(shù)據(jù)倉(cāng)庫的結(jié)構(gòu)問題。2.3.1 小節(jié)介紹如何設(shè)計(jì)和構(gòu)造數(shù)據(jù)倉(cāng)庫。2.3.2 小節(jié)介紹三層數(shù)據(jù)倉(cāng)庫結(jié)構(gòu)。2.3.3 小節(jié)提供用于 OLAP 處理的各種不同類型的倉(cāng)庫服務(wù)器。

?

數(shù)據(jù)倉(cāng)庫的設(shè)計(jì)步驟和結(jié)構(gòu)

本小節(jié)提供數(shù)據(jù)倉(cāng)庫設(shè)計(jì)的一個(gè)商務(wù)分析框架,同時(shí)介紹設(shè)計(jì)過程所涉及的基本步驟。

數(shù)據(jù)倉(cāng)庫設(shè)計(jì):一個(gè)商務(wù)分析框架

“數(shù)據(jù)倉(cāng)庫為商務(wù)分析提供了什么?”首先,擁有數(shù)據(jù)倉(cāng)庫可以提供競(jìng)爭(zhēng)優(yōu)勢(shì)。通過提供相關(guān)信息,據(jù)此測(cè)量性能并作出重要調(diào)整,以幫助戰(zhàn)勝其它競(jìng)爭(zhēng)對(duì)手。其次,數(shù)據(jù)倉(cāng)庫可以加強(qiáng)生產(chǎn)能力,因?yàn)樗軌蚩焖儆行У厮鸭瘻?zhǔn)確描述組織機(jī)構(gòu)的信息。再次,數(shù)據(jù)倉(cāng)庫促進(jìn)了與顧客的聯(lián)系,因?yàn)樗缭剿猩虅?wù)、所有部門、所有市場(chǎng),提供了顧客和商品的一致視圖。最后,通過以一致、可靠的方式長(zhǎng)期跟蹤趨勢(shì)、式樣、例外,數(shù)據(jù)倉(cāng)庫可以降低費(fèi)用。

為建立有效的數(shù)據(jù)倉(cāng)庫,需要理解和分析商務(wù)需求,并構(gòu)造一個(gè)商務(wù)分析框架。構(gòu)造一個(gè)大的、復(fù)雜的信息系統(tǒng)就象建一個(gè)大型、復(fù)雜的建筑,業(yè)主、設(shè)計(jì)師、建筑者都有不同的視圖。這些觀點(diǎn)結(jié)合在一起,形成一個(gè)復(fù)雜的框架,代表自頂向下、商務(wù)驅(qū)動(dòng),或業(yè)主的視圖,也代表自底向上、建筑者驅(qū)動(dòng),或信息系統(tǒng)實(shí)現(xiàn)者的視圖。

關(guān)于數(shù)據(jù)倉(cāng)庫的設(shè)計(jì),四種不同的視圖必須考慮:自頂向下、數(shù)據(jù)源、數(shù)據(jù)倉(cāng)庫、商務(wù)查詢。

1???? 自頂向下視圖使得我們可以選擇數(shù)據(jù)倉(cāng)庫所需的相關(guān)信息。這些信息能夠滿足當(dāng)前和未來商務(wù)的需求。

2? ? ?數(shù)據(jù)源視圖揭示被操作數(shù)據(jù)庫系統(tǒng)捕獲、存儲(chǔ)、和管理的信息。這些信息可能以不同的詳細(xì)程度和精度建檔,存放在由個(gè)別數(shù)據(jù)源表到集成的數(shù)據(jù)源表中。通常,數(shù)據(jù)源用傳統(tǒng)的數(shù)據(jù)建模技術(shù),如實(shí)體-聯(lián)系模型或 CASE(計(jì)算機(jī)輔助軟件工程)工具建模。

3???? 數(shù)據(jù)倉(cāng)庫視圖包括事實(shí)表和維表。它們提供存放在數(shù)據(jù)倉(cāng)庫內(nèi)部的信息,包括預(yù)先計(jì)算的和與計(jì)數(shù),以及關(guān)于源、日期、原時(shí)間等。

4???? 最后,商務(wù)查詢視圖是從最終用戶的角度透視數(shù)據(jù)倉(cāng)庫中的數(shù)據(jù)。

建立和使用數(shù)據(jù)倉(cāng)庫是一個(gè)復(fù)雜的任務(wù),因?yàn)樗枰虅?wù)技巧、技術(shù)技巧和程序管理技巧。關(guān)于商務(wù)技巧,建立數(shù)據(jù)倉(cāng)庫涉及理解這樣一個(gè)系統(tǒng)如何存儲(chǔ)和管理它的數(shù)據(jù);如何構(gòu)造一個(gè)提取程序,將數(shù)據(jù)由操作數(shù)據(jù)庫轉(zhuǎn)換到數(shù)據(jù)倉(cāng)庫;如何構(gòu)造一個(gè)倉(cāng)庫刷新軟件,合理地保持?jǐn)?shù)據(jù)倉(cāng)庫中的數(shù)據(jù)相對(duì)于操作數(shù)據(jù)庫中數(shù)據(jù)的當(dāng)前性。使用數(shù)據(jù)倉(cāng)庫涉及理解數(shù)據(jù)的含義,以及理解商務(wù)需求并將它轉(zhuǎn)換成數(shù)據(jù)倉(cāng)庫查詢。關(guān)于技術(shù)技巧,數(shù)據(jù)分析需要理解如何由定量信息作出估價(jià),以及如何根據(jù)數(shù)據(jù)倉(cāng)庫中的歷史信息得到的結(jié)論推導(dǎo)事實(shí)。這些技巧包括發(fā)現(xiàn)模式和趨勢(shì),根據(jù)歷史推斷趨勢(shì)和發(fā)現(xiàn)不規(guī)則的能力,并根據(jù)這種分析提出相應(yīng)的管理建議。最后,程序管理技巧涉及需要與許多技術(shù)人員、經(jīng)銷商、最終用戶交往,以便以及時(shí)、合算的方式提交結(jié)果。

?

數(shù)據(jù)倉(cāng)庫的設(shè)計(jì)過程

“如何設(shè)計(jì)數(shù)據(jù)倉(cāng)庫?”數(shù)據(jù)倉(cāng)庫可以使用自頂向下方法、自底向上方法,或二者結(jié)合的混合方法設(shè)計(jì)。自頂向下方法由總體設(shè)計(jì)和規(guī)劃開始。當(dāng)技術(shù)成熟并已掌握,對(duì)必須解決的商務(wù)問題清楚并已很好理解時(shí),這種方法是有用的。自底向上方法以實(shí)驗(yàn)和原型開始。在商務(wù)建模和技術(shù)開發(fā)的早期階段,這種方法是有用的。這樣可以以相當(dāng)?shù)偷拇鷥r(jià)前進(jìn),在作出重要承諾之前評(píng)估技術(shù)的利益。在混合方法下,一個(gè)組織既能利用自頂向下方法的規(guī)劃的、戰(zhàn)略的自然特點(diǎn),又能保持象自底向上方法一樣快速實(shí)現(xiàn)和立即應(yīng)用。

從軟件工程的觀點(diǎn),數(shù)據(jù)倉(cāng)庫的設(shè)計(jì)和構(gòu)造包含以下步驟:規(guī)劃、需求研究、問題分析、倉(cāng)庫設(shè)計(jì)、數(shù)據(jù)集成和測(cè)試,最后,配置數(shù)據(jù)倉(cāng)庫。大的軟件系統(tǒng)可以用兩種方法開發(fā):瀑布式方法和螺旋式方法。瀑布式方法在進(jìn)行下一步之前,每一步都進(jìn)行結(jié)構(gòu)化和系統(tǒng)的分析,就象瀑布一樣,從一級(jí)落到下一級(jí)。螺旋式方法涉及功能漸增的系統(tǒng)的快速產(chǎn)生,相繼版本之間的間隔很短。對(duì)于數(shù)據(jù)倉(cāng)庫,特別是對(duì)于數(shù)據(jù)集市的開發(fā),這是一個(gè)好的選擇,因?yàn)槠渲苻D(zhuǎn)時(shí)間短,能夠快速修改,并且新的設(shè)計(jì)和技術(shù)可以快速接受。

一般地,數(shù)據(jù)倉(cāng)庫的設(shè)計(jì)過程包含如下步驟:

1 選取待建模的商務(wù)處理,例如,訂單、發(fā)票、出貨、庫存、記帳管理、銷售、和一般分類帳。

如果一個(gè)商務(wù)過程是有組織的,并涉及多個(gè)復(fù)雜的對(duì)象,應(yīng)當(dāng)選用數(shù)據(jù)倉(cāng)庫模型。然而,如果處理是部門的,并關(guān)注某一類商務(wù)處理,則應(yīng)選擇數(shù)據(jù)集市。

2 選取商務(wù)處理的粒度。對(duì)于處理,該粒度是基本的、在事實(shí)表中是數(shù)據(jù)的原子級(jí)。例如,單個(gè)事務(wù)、一天的快照等。

3 選取用于每個(gè)事實(shí)表記錄的維。典型的維是時(shí)間、商品、顧客、供應(yīng)商、倉(cāng)庫、事務(wù)類型和狀態(tài)。

4 選取將安放在事實(shí)表中的度量。典型的度量是可加的數(shù)值量,如dollars_sold units_sold

由于數(shù)據(jù)倉(cāng)庫的構(gòu)造是一個(gè)困難、長(zhǎng)期的任務(wù),它的實(shí)現(xiàn)范圍應(yīng)當(dāng)清楚地定義。一個(gè)初始的數(shù)據(jù)倉(cāng)庫的實(shí)現(xiàn)目標(biāo)應(yīng)當(dāng)是特定的、可實(shí)現(xiàn)、可測(cè)量的。這涉及時(shí)間和預(yù)算的分配,一個(gè)組織的哪些子集要建模,選擇的數(shù)據(jù)源數(shù)量,提供服務(wù)的部門數(shù)量和類型。

一旦設(shè)計(jì)和構(gòu)造好數(shù)據(jù)倉(cāng)庫,數(shù)據(jù)倉(cāng)庫的最初使用包括初始化裝入、首次展示規(guī)劃、培訓(xùn)和定

位。平臺(tái)的升級(jí)和管理也要考慮。數(shù)據(jù)倉(cāng)庫管理包括數(shù)據(jù)刷新、數(shù)據(jù)源同步、規(guī)劃故障恢復(fù)、管理存取控制和安全、管理數(shù)據(jù)增長(zhǎng)、管理數(shù)據(jù)庫性能、以及數(shù)據(jù)倉(cāng)庫的增強(qiáng)和擴(kuò)充。范圍管理包括控制查詢、維、報(bào)告的數(shù)量和范圍,限制數(shù)據(jù)倉(cāng)庫的大小,或限制進(jìn)度、預(yù)算和資源。

各種數(shù)據(jù)倉(cāng)庫設(shè)計(jì)工具都可以使用。數(shù)據(jù)倉(cāng)庫開發(fā)工具提供一些操作,定義和編輯元數(shù)據(jù)庫(如模式、腳本或規(guī)則),回答查詢,輸出報(bào)告,向或由關(guān)系數(shù)據(jù)庫目錄傳送元數(shù)據(jù)。規(guī)劃與分析工具研究模式改變的影響,當(dāng)刷新率或時(shí)間窗口改變時(shí)對(duì)刷新性能的影響。

?

三層數(shù)據(jù)倉(cāng)庫結(jié)構(gòu)

“數(shù)據(jù)倉(cāng)庫的結(jié)構(gòu)是什么樣的?”通常,數(shù)據(jù)倉(cāng)庫采用三層結(jié)構(gòu)。

1.?? 底層是數(shù)據(jù)倉(cāng)庫服務(wù)器,它幾乎總是一個(gè)關(guān)系數(shù)據(jù)庫系統(tǒng)。“如何由該層提取數(shù)據(jù),創(chuàng)建數(shù)據(jù)倉(cāng)庫?”使用稱作網(wǎng)間連接程序的應(yīng)用程序,由操作數(shù)據(jù)庫和外部數(shù)據(jù)源(如,由外部咨詢者提供的顧客側(cè)面信息)提取數(shù)據(jù)。網(wǎng)間連接程序由下面的 DBMS 支持,允許客戶程序產(chǎn)生 SQL 代碼,在服務(wù)器上執(zhí)行。網(wǎng)間連接程序的例子包括 ODBC(開放數(shù)據(jù)庫連接)和微軟的 OLE-DB(數(shù)據(jù)庫開放鏈接和嵌入),JDBCJava 數(shù)據(jù)庫連接)。

2.?? 中間層是OLAP服務(wù)器,其典型的實(shí)現(xiàn)或者是(1)關(guān)系OLAPROLAP)模型,即擴(kuò)充的關(guān)系 DBMS,它將多維數(shù)據(jù)上的操作映射為標(biāo)準(zhǔn)的關(guān)系操作;或者是(2)多維OLAPMOLAP)模型,即特殊的服務(wù)器,它直接實(shí)現(xiàn)多維數(shù)據(jù)和操作。OLAP服務(wù)器在 2.3.3 小節(jié)討論。

3.?? 頂層是客戶,它包括查詢和報(bào)告工具、分析工具、和/或數(shù)據(jù)挖掘工具(例如,趨勢(shì)分析、預(yù)測(cè)等)。

從結(jié)構(gòu)的角度看,有三種數(shù)據(jù)倉(cāng)庫模型:企業(yè)倉(cāng)庫、數(shù)據(jù)集市、和虛擬倉(cāng)庫。

企業(yè)倉(cāng)庫:企業(yè)倉(cāng)庫搜集了關(guān)于主題的所有信息,跨越整個(gè)組織。它提供企業(yè)范圍內(nèi)的數(shù)據(jù)集成,通常來自一個(gè)或多個(gè)操作的系統(tǒng),或外部信息提供者,并且是跨功能的。通常,它包含詳細(xì)數(shù)據(jù)和匯總數(shù)據(jù),其大小由數(shù)千兆字節(jié),到數(shù)百千兆字節(jié),數(shù)兆兆字節(jié),或更多。企業(yè)數(shù)據(jù)倉(cāng)庫可以在傳統(tǒng)的大型機(jī)上實(shí)現(xiàn),如 UNIX 超級(jí)服務(wù)器或并行結(jié)構(gòu)平臺(tái)。它需要廣泛建模,可能需要多年設(shè)計(jì)和建造。

數(shù)據(jù)集市:數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的用戶是有用的。其范圍限于選定的主題。例如,一個(gè)商場(chǎng)的數(shù)據(jù)集市可能限定其主題為顧客、商品和銷售。包括在數(shù)據(jù)集市中的數(shù)據(jù)通常是匯總的。

通常,數(shù)據(jù)集市可以在低價(jià)格的部門服務(wù)器上實(shí)現(xiàn),基于 UNIX Windows/NT。實(shí)現(xiàn)數(shù)據(jù)集市的周期一般是數(shù)以周計(jì),而不是數(shù)以月計(jì)或數(shù)以年計(jì)。然而,如果它們的規(guī)劃不是企業(yè)范圍的,從長(zhǎng)遠(yuǎn)講,可能涉及很復(fù)雜的集成。根據(jù)數(shù)據(jù)的來源不同,數(shù)據(jù)集市分為獨(dú)立的和依賴的兩類。在獨(dú)立的數(shù)據(jù)集市中,數(shù)據(jù)來自一個(gè)或多個(gè)操作的系統(tǒng)或外部信息提供者,或者來自在一個(gè)特定的部門或地域局部產(chǎn)生的數(shù)據(jù)。依賴的數(shù)據(jù)集市中的數(shù)據(jù)直接來自企業(yè)數(shù)據(jù)倉(cāng)庫。

虛擬倉(cāng)庫:虛擬倉(cāng)庫是操作數(shù)據(jù)庫上視圖的集合。為了有效地處理查詢,只有一些可能的匯總視圖被物化。虛擬倉(cāng)庫易于建立,但需要操作數(shù)據(jù)庫服務(wù)器具有剩余能力。

自頂向下開發(fā)企業(yè)倉(cāng)庫是一種系統(tǒng)的解決方法,并能最大限度地減少集成問題。然而,它費(fèi)用高,需要長(zhǎng)時(shí)間開發(fā),并且缺乏靈活性,因?yàn)檎麄€(gè)組織的共同數(shù)據(jù)模型達(dá)到一致是困難的。自底向上設(shè)計(jì)、開發(fā)、配置獨(dú)立的數(shù)據(jù)集市方法提供了靈活性、低花費(fèi),并能快速回報(bào)投資。然而,將分散的數(shù)據(jù)集市集成,形成一個(gè)一致的企業(yè)數(shù)據(jù)倉(cāng)庫時(shí),可能導(dǎo)致問題。

對(duì)于開發(fā)數(shù)據(jù)倉(cāng)庫系統(tǒng),一個(gè)推薦的方法是以遞增、進(jìn)化的方式實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫,如圖 2.13 所示。第一,在一個(gè)合理短的時(shí)間(如,一、兩個(gè)月)內(nèi),定義一個(gè)高層次的企業(yè)數(shù)據(jù)模型,在不同的主題和可能的應(yīng)用之間,提供企業(yè)范圍的、一致的、集成的數(shù)據(jù)視圖。這個(gè)高層模型將大大減少今后的集成問題,盡管在企業(yè)數(shù)據(jù)倉(cāng)庫和部門數(shù)據(jù)集市的開發(fā)中,它還需要進(jìn)一步提煉。第二,基于上述相同的企業(yè)數(shù)據(jù)模型,可以并行地實(shí)現(xiàn)獨(dú)立的數(shù)據(jù)集市和企業(yè)數(shù)據(jù)倉(cāng)庫。第三,可以構(gòu)造分布數(shù)據(jù)集市,通過網(wǎng)絡(luò)中心服務(wù)器集成不同的數(shù)據(jù)集市。最后,構(gòu)造一個(gè)多層數(shù)據(jù)倉(cāng)庫,這里,企業(yè)倉(cāng)庫是所有倉(cāng)庫數(shù)據(jù)的唯一管理者,倉(cāng)庫數(shù)據(jù)分布在一些依賴的數(shù)據(jù)集市中。

?

OLAP 服務(wù)器類型:ROLAPMOLAPHOLAP 的比較

OLAP 服務(wù)器的種類有哪些?”邏輯上講,OLAP 服務(wù)器為商務(wù)用戶提供來自數(shù)據(jù)倉(cāng)庫或數(shù)據(jù)集市的多維數(shù)據(jù),而不必關(guān)心數(shù)據(jù)如何存放和存放在何處。然而,OLAP 服務(wù)器的物理結(jié)構(gòu)和實(shí)現(xiàn)必須考慮數(shù)據(jù)存放問題。OLAP 服務(wù)器實(shí)現(xiàn)包括:

關(guān)系OLAPROLAP)服務(wù)器:這是一種中間服務(wù)器,介于關(guān)系后端服務(wù)器和用戶前端工具之間。它們使用關(guān)系或擴(kuò)充關(guān)系 DBMS 存放并管理數(shù)據(jù)倉(cāng)庫,而 OLAP 中間件支持其余部分。ROLAP服務(wù)器包括每個(gè) DBMS 后端優(yōu)化,聚集導(dǎo)航的邏輯實(shí)現(xiàn),附加的工具和服務(wù)。看來,ROLAP 技術(shù)比 MOLAP 技術(shù)具有更大的可規(guī)模性。例如,Microstrategy DSS Informix Metacube 都采用ROLAP 方法5

多維 OLAPMOLAP)服務(wù)器:這些服務(wù)器通過基于數(shù)組的多維存儲(chǔ)引擎,支持?jǐn)?shù)據(jù)的多維視圖。它們將多維視圖直接映射到數(shù)據(jù)方數(shù)組結(jié)構(gòu)。例如,Arbor Essbase 是一個(gè) MOLAP 服務(wù)器。使用數(shù)據(jù)方的優(yōu)點(diǎn)是能夠?qū)︻A(yù)計(jì)算的匯總數(shù)據(jù)快速索引。注意,使用多維數(shù)據(jù)存儲(chǔ),如果數(shù)據(jù)集是

稀疏的,存儲(chǔ)利用率可能很低。在這種情況下,應(yīng)當(dāng)使用稀疏矩陣壓縮技術(shù)(見 2.4 節(jié))。

許多 OLAP 服務(wù)器采用兩級(jí)存儲(chǔ),以便處理稀疏和稠密數(shù)據(jù)集:稠密子方不變,并作為數(shù)組結(jié)構(gòu)存儲(chǔ);而稀疏子方使用壓縮技術(shù),從而提高存儲(chǔ)利用率。

混合OLAPHOLAP)服務(wù)器:混合OLAP 方法結(jié)合ROLAP MOLAP 技術(shù),得益于 ROLAP 較大的可規(guī)模性和 MOLAP 的快速計(jì)算。例如,HOLAP 服務(wù)器允許將大量詳細(xì)數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫中,而聚集保持在分離的 MOLAP存儲(chǔ)中。微軟的 SQL Server 7.0 OLAP 服務(wù)支持混合 OLAP 服務(wù)器。

特殊的 SQL 服務(wù)器:為了滿足在關(guān)系數(shù)據(jù)庫中日益增長(zhǎng)的 OLAP 處理的需要,一些關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉(cāng)庫公司(例如 Redbrick)實(shí)現(xiàn)了特殊的 SQL 服務(wù)器,提供高級(jí)查詢語言和查詢處理,在只讀環(huán)境下,在星形和雪花模式上支持 SQL 查詢。

?“那么,數(shù)據(jù)怎樣實(shí)際地存放在 ROLAP MOLAP結(jié)構(gòu)中?”如名稱所示,ROLAP 使用關(guān)系表存放聯(lián)機(jī)分析處理數(shù)據(jù)。注意,與基本方體相關(guān)聯(lián)的事實(shí)表稱為基本事實(shí)表。基本事實(shí)表存放的數(shù)據(jù)所處的抽象級(jí)由給定的數(shù)據(jù)方的模式的連接鍵指出。聚集數(shù)據(jù)也能存放在事實(shí)表中,這種表稱為匯總事實(shí)表。有些匯總事實(shí)表既存放基本事實(shí)表數(shù)據(jù),又存放聚集數(shù)據(jù),如例 2.10 所示。也可以對(duì)每一抽象級(jí)分別使用匯總事實(shí)表,只存放聚集數(shù)據(jù)。

大部分?jǐn)?shù)據(jù)倉(cāng)庫系統(tǒng)采用客戶-服務(wù)器結(jié)構(gòu)。關(guān)系數(shù)據(jù)存儲(chǔ)總是駐留在數(shù)據(jù)倉(cāng)庫/數(shù)據(jù)集市服務(wù)器站點(diǎn)上。多維數(shù)據(jù)存儲(chǔ)可以駐留在數(shù)據(jù)庫服務(wù)器站點(diǎn),或客戶站點(diǎn)。
?

?

總結(jié)

以上是生活随笔為你收集整理的数据挖掘之数据仓库详述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。