當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据仓库与数据挖掘知识点梳理

發布時間：2024/8/1 编程问答 66 豆豆

生活随笔收集整理的這篇文章主要介紹了数据仓库与数据挖掘知识点梳理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據倉庫與數據挖掘知識點梳理

一：數據挖掘

1：什么是數據挖掘

數據挖掘是從大量的數據中挖掘出隱含的、未知的、用戶可能感興趣的和對決策有潛在價值的知識和規則。
----簡單的說，數據挖掘就是從大量的數據中發現有用信息的過程

數據的豐富帶來了對強有力的數據分析工具的需求：

解決辦法：數據倉庫技術和數據挖掘技術
數據倉庫和聯機分析處理技術（存儲）
數據挖掘：在大量的數據中挖掘感興趣的知識/規則/規律/模式/約束（分析）。

注意事項：

早期的數據庫主要支持聯機事務處理

數據倉庫用于決策分析，并不是所謂的大型數據庫。
—數據倉庫的數據是大量數據庫的集成。

數據庫用于事務處理，數據倉庫用于決策分析

2：數據挖掘的功能

關聯分析（描述）：反映一個事件和其他事件之間依賴或關聯的知識。

聚類分析（描述）：物以類聚，人以群分

分類（預測）：反映同類事物共同性質的特征型知識和不同事物之間的差異型特征知識。
------注：聚類是一種無指導的觀察式學習，沒有預先定義的類；而分類問題是有指導的示例式學習，有預先定義的類。

孤立點分析（預測）：

1.關聯分析（描述）反映一個事件和其他事件之間依賴或關聯的知識

2.聚類分析（描述）	物以類聚，人以群分
3.分類（預測）	反映同類事物共同性質的特征型知識和不同事物之間的差
4.孤立點分析（預測）	對差異和極端特例的描述

數據庫事務型（操作型）數據處理

數據倉庫	分析型數據處理
數據挖掘	知識發現

二：數據倉庫

1：什么是數據倉庫

數據倉庫是為構建分析型數據處理環境而出現的一種數據存儲和組織技術。
數據倉庫之父：William H.Inmon
嚴格定義：
數據倉庫是一個面向主題的、集成的、隨時間而變化的、不容易丟失的數據集合，支持管理部門的決策過程.—W.H.Inmon

2：數據倉庫的作用

存儲經過加工處理的決策需要的數據

查詢和決策分析的依據

3：數據倉庫的關鍵特征

面相主題的：
數據倉庫中所有數據都是圍繞某一主題組織、展開的

集成的：
一個數據倉庫是通過集成多個異種數據源來構造的

不容易丟失的（非易失的）：
只進行兩種數據訪問：
數據的初始裝載；
查詢操作

隨時間而變化的（時變的）：
從歷史的角度提供信息

4：數據倉庫與數據挖掘的區別

數據倉庫：是一種存儲技術，它能適應于不同用戶提供對不同決策需要所需的數據和信息。
數據挖掘：是一種分析技術，研究各種方法和技術，從大量的數據中挖掘出有用的信息和知識。

注：數據倉庫并不是數據挖掘的必要條件

三：數據立方體

數據倉庫和OLAP工具是基于多維數據模型的。在多維數據模型中，數據以數據立方體(data cube)的形式存在。

盡管我們經常把數據立方體看作3-D幾何結構，但實際上，在數據倉庫中，數據立方體是n-D的

3-D的數據立方體可以以2-D的數據表的序列表示

1.概念分層

單個維度的角度考察

在數據倉庫中，一個概念分層（concept hierarchy）定義一個映射序列，將低層概念映射到更一般的高層概念。

對于一個給定的屬性或維，根據不同的用戶視圖，可能有多個概念層次：如，表示location的概念：城市?省份?國家?洲；

2.方體的格

給定一個維的集合，將在不同匯總級別上給出的數據立方體稱為方體的格。

每個方體的格都在不同的匯總級或不同的數據子集顯示數據。

0維方體存放最高層的匯總，稱作頂點方體（如總銷售dollars-sold）；而存放最底層匯總的方體則稱為基本方體（如圖2所示的4維基本方體）。

3.數據倉庫的三級模型

（1）概念模型：
從客觀世界到主觀認識的映射；
首先將現實世界抽象為概念模型，然后再用適合計算機世界的模型和語言來描述。
（2）邏輯模型：
邏輯模型描述了數據倉庫主題的邏輯實現.
（3）物理模型
邏輯模型在數據倉庫中的實現，如數據存儲結構、存儲策略、索引策略、存儲分配優化等。

一：概念模型

數據倉庫用“信息包圖”表示概念模型。

一個信息包圖生成一個事實表。

度量表示事實與指標。

二：邏輯模型

是數據倉庫數據模型的第二層；

通常有三種邏輯模型表示法：
星型模型：事實表在中心，周圍圍繞地連接著維表（每維一個）。
------（一個事實表）
雪花模型：是星型模型的變種。
--------（一個事實表）
事實星座模型：復雜的應用（如多主題的數據倉庫）可能需要多個事實表共享維表。
--------（針對兩個會兩個以上的數據倉庫）

幾個基本概念：
維和維表：

維：關于一個組織想要記錄的視角或觀點。

維表：每個維都有一個表與之相關聯

事實和事實表：

事實：指的是一些數字度量

事實表：包括事實的名稱或度量，以及每個相關維表的關鍵字。

三：物理模型
是邏輯模型在數據倉庫中的實現；
主要進行：數據存儲結構、存儲策略、索引策略、存儲分配優化等工作。

有兩種常見的存儲結構：
1）分布式存儲；
2）集中式存儲。

四：OLAP

1. OLAP的基本概念？

定義：聯機分析處理是共享多維信息的、針對特定問題的聯機數據訪問和分析的快速軟件技術。

60年代，關系數據庫之父E.F.Codd提出了關系模型，促進了聯機事務處理（OLTP）的發展。
多維數據庫和多維分析的概念，即OLAP

2.OLAP與OLTP

OLTP ：是傳統的關系型數據庫的主要應用，包括記錄實時的增、刪、改、查，主要是面向基本的、日常的事務處理
OLAP：是數據倉庫的主要應用，支持復雜的分析操作，側重決策支持

3.OLAP的特性

1.快速性：用戶對OLAP的快速反應能力有很高的要求。
2.可分析性：OLAP系統應能處理與應用有關的任何邏輯分析和統計分析。
3.多維性：系統必須提供對數據的多維視圖和分析。
4.信息性：OLAP系統應能及時獲得信息，并且管理大容量信息。

4.OLAP的分析方法

切片（Slice）
從多維數組選定一個二維子集，切出一個“平面”

切塊（Dice）
從多維數組選定一個三維子集，切出一個“立方體”

旋轉（Rotate）
改變一個報告（或頁面）顯示的維方向

鉆取(Drill)
根據維層次，改變數據的粒度，在單個維上進行

基本概念：

維：是人們觀察數據的特定角度，是考察問題時的一類屬性，屬性集合構成一個維（時間維、地理維等）。
維的層次：人們觀察數據的某個特定角度（即某個維），還可以存在細節程度不同的各個描述方面（時間維：日期、月份、季度、年）。
維的成員：維的一個取值。是數據項在某維中位置的描述。（“某年某月某日”是在時間維上位置的描述）
多維數組：維和變量的組合表示。一個多維數組可以表示為（維1，維2，…，維n，變量）。（時間，地區，產品，銷售額）
數據單元（單元格）：多維數組的取值。（2000年1月，上海，筆記本電腦，￥10000）

五：數據預處理

1.臟數據分類：

雜亂性：如命名規則的不同

重復性：同一客觀事物在數據庫中存在兩個以上相同的物理描述。

不完整性：由于實際系統設計時存在的缺陷以及使用過程中的一些人為因素，數據記錄可能會出現數據值的丟失或不確定。

噪聲數據：數據中存在著錯誤或異常（偏離期望值）

2.數據預處理的常見方法

數據清理（清洗）
----去掉數據中的噪聲，糾正不一致

數據集成
-----將多個數據源合并成一致的數據存儲，構成一個完整的數據集，如數據倉庫。

數據變換（轉換）
-----將一種格式的數據轉換為另一格式的數據(如規范化)

數據歸約（消減）
----通過聚集、刪除冗余屬性或聚類等方法來壓縮數據。

2.1數據清理

2.1.1空缺值的處理

1）忽略該元組
2）人工填寫空缺值
3）使用屬性的平均值填充空缺值
4）使用與給定元組屬同一類的所有樣本的平均值
5）使用一個全局變量填充空缺值
6）使用最可能的值填充空缺值

2.1.2噪聲數據的處理

1）分箱方法

先排序，再分箱

等深分箱

等寬分箱

可以按箱的平均值、按箱中值或者按箱的邊界等進行平滑。

2）聚類方法

通過聚類分析查找孤立點，消除噪聲

3）線性回歸

發現兩個相關的變量之間的變化模式，利用回歸分析方法所獲得的擬合函數，幫助平滑數據及除去噪聲。

4）人機結合共同檢測

計算機檢測可疑數據，然后對它們進行人工判斷

2.1.3不一致數據的處理

人工更正

利用知識工程工具

數據字典

2.2數據集成和變換

2.2.1數據集成

數據集成
將多個數據源中的數據整合到一個一致的存儲中。
這些源可以是關系型數據庫、數據立方體或一般文件。
它需要統一原始數據中的所有矛盾之處，如字段的:

同名異義；

異名同義；

單位不統一；

字長不一致等。

注意問題：

模式匹配問題；

冗余問題；

數據值沖突問題。

2.2.2數據變換

平滑處理：從數據中消除噪聲；
聚集操作：對數據進行綜合；
數據規范化：將數據轉換到一個較小的范圍之內；

2.2.2.1規范化方法

最小-最大規范化；

零-均值規范化（z-score規范化）；

小數定標規范化。

2.2.2.1 最小—最大規范化

假定minA和maxA分別為屬性A的最小和最大值，則通過下面公式將A的值映射到區間[new_min, new_max]中的v’：

假定屬性income的最小與最大值分別為$12000和$98000，可根據最小—最大規范化方法將其范圍映射到[0,1]：
如：
屬性值$73600將變換為：
[(73600-12000)/(98000-12000)]*(1-0)+0=0.716

2.2.2.2 z-score規范化（零均值規范化）

將屬性A的值根據其平均值和標準差進行規范化；
常用于屬性最大值與最小值未知，或使用最小最大規范化方法會出現異常數據的情況。

其中，meanA、standard-devA分別為屬性A取值的均值和標準差。
例：
假定屬性income的平均值與標準差分別為$54000和$16000，使用z-score規范化，則屬性值$73600將變換為：
(73600-54000）/16000=1.225

2.2.2.3 小數定標規范化

通過移動屬性A的小數點位置進行規范化，小數點的移動依賴于A的最大絕對值

其中，j是使 Max(| v’ |)<1的最小整數
例：
假定A的取值范圍[-986, 917]，則A的最大絕對值為986，為使用小數定標規范化，用1000（即j=3）除每個值，這樣-986被規范化為-0.986。

2.2.3數據規約

數據立方體聚集；

維歸約；
主要用于檢測并刪除不相關、弱相關或冗余的屬性維
最常用的方法：屬性子集選擇。
1)逐步向前選擇 (選好的)
2）逐步向后刪除（刪差的）
3）向前選擇和向后刪除的結合（1+2）
4）判定樹歸納
在判定樹的每個節點，算法選擇“最好”的屬性，將數據劃分成類。
當判定樹歸納用于屬性子集選擇時，不出現在樹中的所有屬性假定是不相關的；出現在判定樹中的屬性形成歸約后的屬性子集。

數據離散化。
標稱型（名稱型、名義型）：數值來自于無序集合，如性別、地名、人名等。
序數型：數值來自于有序集合，如獎學金的等級；職稱分布等。
連續型：實數值，如溫度、體重等。

2.2.3.1離散化方法

1）分箱：屬性的值可以通過將其分配到各分箱中而將其離散化。
利用每個分箱的均值或中數替換每個分箱中的值（利用均值或中數進行平滑）。
2）基于熵的離散化：通過信息熵度量，實現離散化
3）通過自然劃分分段：3-4-5自然劃分分段法
4）聚類：聚類算法可以將數據集劃分為若干類或組，每個類構成概念層次樹的一個節點；每個類還可以進一步分解為若干子類，從而構成更低水平的層次。

2.2.3.2基于熵的離散化

考慮類別信息，遞歸計算信息熵，產生分層的離散化。

初始不確定性：

I(S)=

給定一個數據元組的集合S，基于熵對S離散化的方法如下：
1）屬性A中的每個取值可被認為是一個潛在的區間邊界或閾值T。例如，A的取值v可以將樣本S劃分為分別滿足A<v和A≥v兩個子集，這樣就創建了一個二元離散化。
2）對于數據集S，根據所劃分子集而獲得的最大熵增益來選擇閾值，劃分后數據集S提供的信息如下：

學習屬性A之后的不確定性：

E(A)=

其中S1和S2分別對應于S中滿足條件：A<T與A≥T，的樣本。對給定的集合，熵函數Ent根據集合中樣本的類分布來計算。例如，給定m個不同類別，S1的熵就是：

其中pi為類i在S1中出現的概率，等于S1中類i的樣本除以S1中樣本的總行數。同理，計算Ent(S2)。
3）確定閾值的過程遞歸的用于所得到的每個劃分，直到滿足某個終止條件，如：

信息增益不能低于δ：

Ent(S)-I(S,T) ≤δ

2.2.3.3自然劃分分段

將數值區域劃分為相對一致的、易于閱讀的、看上去更直觀或自然的區間。
聚類分析產生的概念分層可能會將一個工資區間劃分為：[51263.98, 60872.34]
而通常數據分析人員希望看到劃分的形式為[50000，60000]
自然劃分的3-4-5規則常可以將數值數據劃分為相對一致和“自然”的區間。一般的，根據最重要的數字上的值區域，遞歸的和逐層的將給定的數據區域劃分為3、4或5個等寬區間。
規則的劃分步驟：
如果一個區間最高有效位上跨越3，6，7或9個不同的值，就將該區間劃分為3個等寬子區間；(7->2,3,2)
如果一個區間最高有效位上跨越2，4，或8個不同的值，就將該區間劃分為4個等寬子區間；
如果一個區間最高有效位上跨越1，5，或10個不同的值，就將該區間劃分為5個等寬子區間；
將該規則遞歸的應用于每個子區間，產生給定數值屬性的概念分層；
規則的劃分步驟：
對于數據集中出現的最大值和最小值的極端分布，為了避免上述方法出現的結果扭曲，可以在頂層分段時，選用一個大部分的概率空間。e.g. 5%-95%
例如，在資產數據集中，少數人的資產可能比其他人高幾個數量級。如果按照最高資產值進行分段，可能導致高度傾斜的分層。此時，可以在頂層分段時，選用一個大部分的概率空間。e.g. 5%-95%。
越出頂層分段的特別高和特別低的部分采用類似的規則劃分方法形成單獨的區間。
假定AllElectronics所有分部1999年的利潤覆蓋了一個很寬的區間，從-351.00$ 到4700$。要求利用3-4-5規則自動構造利潤屬性的一個概念層次樹。

例子：

思路：
設在上述范圍取值為5%至95%的區間為：-159$ 至1838$ 。應用3-4-5規則的具體步驟如下：
1）根據以上信息，在利潤數據集中最小和最大值分別為：MIN=-351$ , MAX=4700$ 。而根據以上分析，對于分段的頂層或第一層，要考慮的最低（5%）和最高（95%）的值是：LOW=-159$ , HIGH=1838$ 。
2）依據LOW和HIGH及其取值范圍，確定最高有效位為1000$ ，LOW按1000$ 美元向下取整，得到LOW’=-1000$ ； HIGH按1000$ 向上取整，得到：HIGH’=2000$ 。
3）由于該區間在最高有效位上跨越了3個值，即(2000-(-1000))/1000=3，根據3-4-5規則，該區間被劃分成3個等寬區間：(-1000$ ,0], (0, 1000$ ], (1000$ ,2000$ ]。這代表分層結構的最頂層。
4）現在，考察原數據集中MIN和MAX值與最高層區間的聯系。由于MIN值落在區間(-1000$ ,0]，因此調整左邊界，對MIN取整后的-400$ ，所以第一個區間調整為(-400$ ,0]。
而由于MAX值不在最后一個區間 (1000$ ,2000$ ]中，因此需新建一個區間（最右邊區間）。對MAX取整后得5000$ ，因此新區間為(2000$ ,5000]。
因此最終，概念樹分層結構的最頂層包含4個區間：(-400$ ,0], (0,1000$ ],(1000$ ,2000$ ], (2000$ ,5000$ ]。
5）對上述每個區間遞歸應用3-4-5規則，形成分層結構的下一個較低層：
第一個區間(-400$ ,0]：劃分為4個子區間(-400$ ,-300$ ], (-300$ ,-200$ ], (-200$ ,-100$ ] , (-100$ ,0$ ].
第二個區間(0$ ,1000$ ]：劃分為5個子區間(0$ ,200$ ], (200$ ,400$ ], 400$ ,600$ ], (600$ ,800$ ], (800$ ,1000$ ].
第三個區間(1000$ ,2000$ ]：劃分為5個子區間(1000$ ,1200$ ], (1200$ ,1400$ ], 1400$ ,1600$ ], (1600$ ,1800$ ], (1800$ ,2000$ ].
第四個區間(2000$ ,5000$ ] ：劃分為3個子區間(2000$ ,3000$ ], (3000$ ,4000$ ], (4000$ ,5000$]。
類似的，如有必要，3-4-5規則可繼續在較低的層次上迭代。

總結

以上是生活随笔為你收集整理的数据仓库与数据挖掘知识点梳理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。