数据仓库与数据挖掘知识点梳理
數據倉庫與數據挖掘知識點梳理
一:數據挖掘
1:什么是數據挖掘
數據挖掘是從大量的數據中挖掘出隱含的、未知的、用戶可能感興趣的和對決策有潛在價值的知識和規則。
----簡單的說,數據挖掘就是從大量的數據中發現有用信息的過程
數據的豐富帶來了對強有力的數據分析工具的需求:
解決辦法:數據倉庫技術和數據挖掘技術
數據倉庫和聯機分析處理技術(存儲)
數據挖掘:在大量的數據中挖掘感興趣的知識/規則/規律/模式/約束(分析)。
注意事項:
—數據倉庫的數據是大量數據庫的集成。
2:數據挖掘的功能
------注:聚類是一種無指導的觀察式學習,沒有預先定義的類;而分類問題是有指導的示例式學習,有預先定義的類。
| 2.聚類分析(描述) | 物以類聚,人以群分 |
| 3.分類(預測) | 反映同類事物共同性質的特征型知識和不同事物之間的差 |
| 4.孤立點分析(預測) | 對差異和極端特例的描述 |
| 數據倉庫 | 分析型數據處理 |
| 數據挖掘 | 知識發現 |
二:數據倉庫
1:什么是數據倉庫
數據倉庫是為構建分析型數據處理環境而出現的一種數據存儲和組織技術。
數據倉庫之父:William H.Inmon
嚴格定義:
數據倉庫是一個面向主題的、集成的、隨時間而變化的、不容易丟失的數據集合,支持管理部門的決策過程.—W.H.Inmon
2:數據倉庫的作用
3:數據倉庫的關鍵特征
數據倉庫中所有數據都是圍繞某一主題組織、展開的
一個數據倉庫是通過集成多個異種數據源來構造的
只進行兩種數據訪問:
數據的初始裝載;
查詢操作
從歷史的角度提供信息
4:數據倉庫與數據挖掘的區別
數據倉庫:是一種存儲技術,它能適應于不同用戶提供對不同決策需要所需的數據和信息。
數據挖掘:是一種分析技術,研究各種方法和技術,從大量的數據中挖掘出有用的信息和知識。
注:數據倉庫并不是數據挖掘的必要條件
三:數據立方體
數據倉庫和OLAP工具是基于多維數據模型的。在多維數據模型中,數據以數據立方體(data cube)的形式存在。
1.概念分層
2.方體的格
3.數據倉庫的三級模型
(1)概念模型:
從客觀世界到主觀認識的映射;
首先將現實世界抽象為概念模型,然后再用適合計算機世界的模型和語言來描述。
(2)邏輯模型:
邏輯模型描述了數據倉庫主題的邏輯實現.
(3)物理模型
邏輯模型在數據倉庫中的實現,如數據存儲結構、存儲策略、索引策略、存儲分配優化等。
一:概念模型
二:邏輯模型
星型模型:事實表在中心,周圍圍繞地連接著維表(每維一個)。
------(一個事實表)
雪花模型:是星型模型的變種。
--------(一個事實表)
事實星座模型:復雜的應用(如多主題的數據倉庫)可能需要多個事實表共享維表。
--------(針對兩個會兩個以上的數據倉庫)
幾個基本概念:
維和維表:
事實和事實表:
三:物理模型
是邏輯模型在數據倉庫中的實現;
主要進行:數據存儲結構、存儲策略、索引策略、存儲分配優化等工作。
有兩種常見的存儲結構:
1)分布式存儲;
2)集中式存儲。
四:OLAP
1. OLAP的基本概念?
定義:聯機分析處理是共享多維信息的、針對特定問題的聯機數據訪問和分析的快速軟件技術。
60年代,關系數據庫之父E.F.Codd提出了關系模型,促進了聯機事務處理(OLTP)的發展。
多維數據庫和多維分析的概念,即OLAP
2.OLAP與OLTP
OLTP :是傳統的關系型數據庫的主要應用,包括記錄實時的增、刪、改、查,主要是面向基本的、日常的事務處理
OLAP:是數據倉庫的主要應用,支持復雜的分析操作,側重決策支持
3.OLAP的特性
1.快速性 :用戶對OLAP的快速反應能力有很高的要求。
2.可分析性 :OLAP系統應能處理與應用有關的任何邏輯分析和統計分析。
3.多維性 :系統必須提供對數據的多維視圖和分析。
4.信息性 :OLAP系統應能及時獲得信息,并且管理大容量信息。
4.OLAP的分析方法
從多維數組選定一個二維子集,切出一個“平面”
從多維數組選定一個三維子集,切出一個“立方體”
改變一個報告(或頁面)顯示的維方向
根據維層次,改變數據的粒度,在單個維上進行
基本概念:
維:是人們觀察數據的特定角度,是考察問題時的一類屬性,屬性集合構成一個維(時間維、地理維等)。
維的層次:人們觀察數據的某個特定角度(即某個維),還可以存在細節程度不同的各個描述方面(時間維:日期、月份、季度、年)。
維的成員:維的一個取值。是數據項在某維中位置的描述。(“某年某月某日”是在時間維上位置的描述)
多維數組:維和變量的組合表示。一個多維數組可以表示為(維1,維2,…,維n,變量)。(時間,地區,產品,銷售額)
數據單元(單元格):多維數組的取值。(2000年1月,上海,筆記本電腦,¥10000)
五:數據預處理
1.臟數據分類:
2.數據預處理的常見方法
----去掉數據中的噪聲,糾正不一致
-----將多個數據源合并成一致的數據存儲,構成一個完整的數據集,如數據倉庫。
-----將一種格式的數據轉換為另一格式的數據(如規范化)
----通過聚集、刪除冗余屬性或聚類等方法來壓縮數據。
2.1數據清理
2.1.1空缺值的處理
1)忽略該元組
2)人工填寫空缺值
3)使用屬性的平均值填充空缺值
4)使用與給定元組屬同一類的所有樣本的平均值
5)使用一個全局變量填充空缺值
6)使用最可能的值填充空缺值
2.1.2噪聲數據的處理
1)分箱方法
2)聚類方法
3)線性回歸
4)人機結合共同檢測
2.1.3不一致數據的處理
2.2數據集成和變換
2.2.1數據集成
數據集成
將多個數據源中的數據整合到一個一致的存儲中。
這些源可以是關系型數據庫、數據立方體或一般文件。
它需要統一原始數據中的所有矛盾之處,如字段的:
注意問題:
2.2.2數據變換
平滑處理:從數據中消除噪聲;
聚集操作:對數據進行綜合;
數據規范化:將數據轉換到一個較小的范圍之內;
2.2.2.1規范化方法
2.2.2.1 最小—最大規范化
假定minA和maxA分別為屬性A的最小和最大值,則通過下面公式將A的值映射到區間[new_min, new_max]中的v’:
假定屬性income的最小與最大值分別為$12000和$98000,可根據最小—最大規范化方法將其范圍映射到[0,1]:
如:
屬性值$73600將變換為:
[(73600-12000)/(98000-12000)]*(1-0)+0=0.716
2.2.2.2 z-score規范化(零均值規范化)
將屬性A的值根據其平均值和標準差進行規范化;
常用于屬性最大值與最小值未知,或使用最小最大規范化方法會出現異常數據的情況。
其中,meanA、standard-devA分別為屬性A取值的均值和標準差。
例:
假定屬性income的平均值與標準差分別為$54000和$16000,使用z-score規范化,則屬性值$73600將變換為:
(73600-54000)/16000=1.225
2.2.2.3 小數定標規范化
通過移動屬性A的小數點位置進行規范化,小數點的移動依賴于A的最大絕對值
其中,j是使 Max(| v’ |)<1的最小整數
例:
假定A的取值范圍[-986, 917],則A的最大絕對值為986,為使用小數定標規范化,用1000(即j=3)除每個值,這樣-986被規范化為-0.986。
2.2.3數據規約
主要用于檢測并刪除不相關、弱相關或冗余的屬性維
最常用的方法:屬性子集選擇。
1)逐步向前選擇 (選好的)
2)逐步向后刪除(刪差的)
3)向前選擇和向后刪除的結合(1+2)
4)判定樹歸納
在判定樹的每個節點,算法選擇“最好”的屬性,將數據劃分成類。
當判定樹歸納用于屬性子集選擇時,不出現在樹中的所有屬性假定是不相關的;出現在判定樹中的屬性形成歸約后的屬性子集。
標稱型(名稱型、名義型):數值來自于無序集合,如性別、地名、人名等。
序數型:數值來自于有序集合,如獎學金的等級;職稱分布等。
連續型:實數值,如溫度、體重等。
2.2.3.1離散化方法
1)分箱:屬性的值可以通過將其分配到各分箱中而將其離散化。
利用每個分箱的均值或中數替換每個分箱中的值(利用均值或中數進行平滑)。
2)基于熵的離散化:通過信息熵度量,實現離散化
3)通過自然劃分分段:3-4-5自然劃分分段法
4)聚類:聚類算法可以將數據集劃分為若干類或組,每個類構成概念層次樹的一個節點;每個類還可以進一步分解為若干子類,從而構成更低水平的層次。
2.2.3.2基于熵的離散化
考慮類別信息,遞歸計算信息熵,產生分層的離散化。
初始不確定性:
I(S)=
給定一個數據元組的集合S,基于熵對S離散化的方法如下:
1)屬性A中的每個取值可被認為是一個潛在的區間邊界或閾值T。例如,A的取值v可以將樣本S劃分為分別滿足A<v和A≥v兩個子集,這樣就創建了一個二元離散化。
2)對于數據集S,根據所劃分子集而獲得的最大熵增益來選擇閾值,劃分后數據集S提供的信息如下:
學習屬性A之后的不確定性:
E(A)=
其中S1和S2分別對應于S中滿足條件:A<T與A≥T,的樣本。對給定的集合,熵函數Ent根據集合中樣本的類分布來計算。例如,給定m個不同類別,S1的熵就是:
其中pi為類i在S1中出現的概率,等于S1中類i的樣本除以S1中樣本的總行數。同理,計算Ent(S2)。
3)確定閾值的過程遞歸的用于所得到的每個劃分,直到滿足某個終止條件,如:
信息增益不能低于δ:
Ent(S)-I(S,T) ≤δ
2.2.3.3自然劃分分段
將數值區域劃分為相對一致的、易于閱讀的、看上去更直觀或自然的區間。
聚類分析產生的概念分層可能會將一個工資區間劃分為:[51263.98, 60872.34]
而通常數據分析人員希望看到劃分的形式為[50000,60000]
自然劃分的3-4-5規則常可以將數值數據劃分為相對一致和“自然”的區間。一般的,根據最重要的數字上的值區域,遞歸的和逐層的將給定的數據區域劃分為3、4或5個等寬區間。
規則的劃分步驟:
如果一個區間最高有效位上跨越3,6,7或9個不同的值,就將該區間劃分為3個等寬子區間;(7->2,3,2)
如果一個區間最高有效位上跨越2,4,或8個不同的值,就將該區間劃分為4個等寬子區間;
如果一個區間最高有效位上跨越1,5,或10個不同的值,就將該區間劃分為5個等寬子區間;
將該規則遞歸的應用于每個子區間,產生給定數值屬性的概念分層;
規則的劃分步驟:
對于數據集中出現的最大值和最小值的極端分布,為了避免上述方法出現的結果扭曲,可以在頂層分段時,選用一個大部分的概率空間。e.g. 5%-95%
例如,在資產數據集中,少數人的資產可能比其他人高幾個數量級。如果按照最高資產值進行分段,可能導致高度傾斜的分層。此時,可以在頂層分段時,選用一個大部分的概率空間。e.g. 5%-95%。
越出頂層分段的特別高和特別低的部分采用類似的規則劃分方法形成單獨的區間。
假定AllElectronics所有分部1999年的利潤覆蓋了一個很寬的區間,從-351.00$ 到4700$。要求利用3-4-5規則自動構造利潤屬性的一個概念層次樹。
例子:
思路:
設在上述范圍取值為5%至95%的區間為:-159$ 至1838$ 。應用3-4-5規則的具體步驟如下:
1)根據以上信息,在利潤數據集中最小和最大值分別為:MIN=-351$ , MAX=4700$ 。而根據以上分析,對于分段的頂層或第一層,要考慮的最低(5%)和最高(95%)的值是:LOW=-159$ , HIGH=1838$ 。
2)依據LOW和HIGH及其取值范圍,確定最高有效位為1000$ ,LOW按1000$ 美元向下取整 ,得到LOW’=-1000$ ; HIGH按1000$ 向上取整,得到:HIGH’=2000$ 。
3)由于該區間在最高有效位上跨越了3個值,即(2000-(-1000))/1000=3,根據3-4-5規則,該區間被劃分成3個等寬區間:(-1000$ ,0], (0, 1000$ ], (1000$ ,2000$ ]。這代表分層結構的最頂層。
4)現在,考察原數據集中MIN和MAX值與最高層區間的聯系。由于MIN值落在區間(-1000$ ,0],因此調整左邊界,對MIN取整后的-400$ ,所以第一個區間調整為(-400$ ,0]。
而由于MAX值不在最后一個區間 (1000$ ,2000$ ]中,因此需新建一個區間(最右邊區間)。對MAX取整后得5000$ ,因此新區間為(2000$ ,5000]。
因此最終,概念樹分層結構的最頂層包含4個區間:(-400$ ,0], (0,1000$ ],(1000$ ,2000$ ], (2000$ ,5000$ ]。
5)對上述每個區間遞歸應用3-4-5規則,形成分層結構的下一個較低層:
第一個區間(-400$ ,0]:劃分為4個子區間(-400$ ,-300$ ], (-300$ ,-200$ ], (-200$ ,-100$ ] , (-100$ ,0$ ].
第二個區間(0$ ,1000$ ]:劃分為5個子區間(0$ ,200$ ], (200$ ,400$ ], 400$ ,600$ ], (600$ ,800$ ], (800$ ,1000$ ].
第三個區間(1000$ ,2000$ ]:劃分為5個子區間(1000$ ,1200$ ], (1200$ ,1400$ ], 1400$ ,1600$ ], (1600$ ,1800$ ], (1800$ ,2000$ ].
第四個區間(2000$ ,5000$ ] :劃分為3個子區間(2000$ ,3000$ ], (3000$ ,4000$ ], (4000$ ,5000$]。
類似的,如有必要,3-4-5規則可繼續在較低的層次上迭代。
總結
以上是生活随笔為你收集整理的数据仓库与数据挖掘知识点梳理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《华为时间管理培训》笔记
- 下一篇: 美女导师偷窥记