数据预处理与降维
1 為什么要進(jìn)行數(shù)據(jù)預(yù)處理
1.1 數(shù)據(jù)清洗
1.1.1 數(shù)據(jù)清洗常見(jiàn)問(wèn)題
a. 缺失值處理
b. 噪聲數(shù)據(jù)處理
c. 異常值處理
d. 臟數(shù)據(jù)處理
e. 去重處理
f. ETL - extract、transform、load
g. 離群點(diǎn)與噪聲
????????????????噪聲: 被測(cè)量的變量的隨機(jī)誤差或者方差(一般指錯(cuò)誤的數(shù)據(jù))?
????????????????離群點(diǎn): 數(shù)據(jù)集中包含一些數(shù)據(jù)對(duì)象,他們與數(shù)據(jù)的一般行為或模型不一致。(正常值, 但偏離大多數(shù)數(shù)據(jù))?
h. 數(shù)據(jù)清洗常見(jiàn)問(wèn)題簡(jiǎn)介
1.2 數(shù)據(jù)變換的一般方法
1.3 離群點(diǎn)檢測(cè)
1.4 數(shù)據(jù)簡(jiǎn)化
1.4.1 數(shù)據(jù)簡(jiǎn)化定義
????????????????也稱為數(shù)據(jù)“規(guī)約”,指在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡(jiǎn)數(shù)據(jù)量,它小得多, 但是保持原始數(shù)據(jù)的完整性。也就是說(shuō),在歸約后的數(shù)據(jù)集上挖掘更有效果,仍然產(chǎn)生相同( 或幾乎形同)的分析結(jié)果。注意:用于數(shù)據(jù)歸約的時(shí)間不應(yīng)當(dāng)超過(guò)或“抵消”在歸約后的數(shù)據(jù)挖掘上挖掘節(jié)省的時(shí)間。
1.4.2 數(shù)據(jù)簡(jiǎn)化常見(jiàn)方法
a. 維規(guī)約 - 即“降維”
????????????????也稱“降維”,減少要考慮的變量及屬性的個(gè)數(shù)。方法包括小波變換和主成分分析,他們把原始數(shù)據(jù)變換或投影到較小的空間。另外屬性子集選擇也是一種維歸約方法,其中不相關(guān)、弱相關(guān)或冗余的屬性或維被檢測(cè)和刪除。
b. 數(shù)量規(guī)約
????????????????用替代的、較小的數(shù)據(jù)表示形式替換原始數(shù)據(jù)。
c. 數(shù)據(jù)壓縮
????????????????使用變換,以便得到原始數(shù)據(jù)的歸約或“壓縮”表示。如果原始數(shù)據(jù)可以從壓縮后的數(shù)據(jù)重構(gòu),而不損失信息,則該數(shù)據(jù)歸約稱為無(wú)損的。反之,稱之為有損的。維歸約和數(shù)量歸約也可以視為某種形式的數(shù)據(jù)壓縮。
2 數(shù)據(jù)降維
2.1 選擇合適的角度投影,你將看到更多的信息
????????????????????????????????????????????????????????????????
2.1 什么是數(shù)據(jù)降維
2.1.1 概念:將數(shù)據(jù)從高維特征空間向低緯特征空間映射的過(guò)程
2.1.2 目的: 直觀地好處是維度降低了,便于計(jì)算和可視化,其更深層次的意義在于有效信息的提取綜合及無(wú)用信息的擯棄。
????????????????????????????????????????????????????????????????
2.2 為什么要進(jìn)行數(shù)據(jù)降維
2.2.1 共線性
????????????????數(shù)據(jù)的多重共線性:特征屬性之間存在著相互關(guān)聯(lián)關(guān)系。多重共線性會(huì)導(dǎo)致解的空間不穩(wěn)定,從而導(dǎo)致模型的泛化能力弱;
2.2.2 稀疏性
????????????????高緯空間樣本具有稀疏性,導(dǎo)致模型比較難找到數(shù)據(jù)特征;
2.2.3 找規(guī)律
????????????????過(guò)多的變量會(huì)妨礙模型查找規(guī)律;
2.2.4 潛在關(guān)系
????????????????僅僅考慮單個(gè)變量對(duì)于目標(biāo)屬性的影響可能忽略變量之間的潛在關(guān)系;
2.2.5 減少特征屬性
????????????????減少特征屬性的個(gè)數(shù);
2.2.6 相互獨(dú)立
????????????????確保特征屬性之間是相互獨(dú)立的;
2.3 數(shù)據(jù)降維的好處
????????????????有時(shí)候也存在特征矩陣過(guò)大,導(dǎo)致計(jì)算量比較大,訓(xùn)練時(shí)間長(zhǎng)的問(wèn)題。?
????????????????降維可以方便數(shù)據(jù)可視化+數(shù)據(jù)分析+數(shù)據(jù)壓縮+數(shù)據(jù)提取等。
2.4 數(shù)據(jù)降維的常見(jiàn)方法
????????????????????????????????????????????????????????????????
2.4.1 LDA(線性判別式分析)法
????????????????LDA的思想可以用一句話概括,就是“投影后類內(nèi)方差最小,類間方差最大”。我們要將數(shù)據(jù)在低維度上進(jìn)行投影,投影后希望每一種類別數(shù)據(jù)的投影點(diǎn)盡可能的接近,而不同類別的數(shù)據(jù)的類別中心之間的距離盡可能的大。
a. 優(yōu)點(diǎn)
在降維過(guò)程中可以使用類別的先驗(yàn)知識(shí)經(jīng)驗(yàn),而像PCA這樣的無(wú)監(jiān)督學(xué)習(xí)則無(wú)法使用類別先驗(yàn)知識(shí);
LDA在樣本分類信息依賴均值而不是方差的時(shí)候,比PCA之類的算法較優(yōu);
b. 缺點(diǎn)
LDA不適合對(duì)非高斯分布樣本進(jìn)行降維,PCA也有這個(gè)問(wèn)題。
LDA降維最多降到類別數(shù)k-1的維數(shù),如果我們降維的維度大于k-1,則不能使用LDA。當(dāng)然目前有一些LDA的進(jìn)化版算法可以繞過(guò)這個(gè)問(wèn)題;
LDA在樣本分類信息依賴方差而不是均值的時(shí)候,降維效果不好;
LDA可能過(guò)度擬合數(shù)據(jù)
2.4.2 PCA(主成分分析)法:
????????????????主成分分析(Principal components analysis,以下簡(jiǎn)稱PCA)是重要的降維方法之一。PCA顧名思義,就是找出數(shù)據(jù)里最主要的方面,用數(shù)據(jù)里最主要的方面來(lái)代替原始數(shù)據(jù)。中心思想:“使得降維后數(shù)據(jù)整體的方差最大!”
2.5 PCA與LDA降維方法對(duì)比分析
?????????????????
?????????????????????? A:PCA降維????????????????????????????????????????????????????????????????????????????????????????????????????????????B:LDA降維
PCA與LDA的區(qū)別
3 流形學(xué)習(xí)方法
3.1 流形學(xué)習(xí)思想
????????????????基本思想就是在高維空間中發(fā)現(xiàn)低維結(jié)構(gòu)。?
?????????????????????????????????????????????????????????????????????????????????????????
????????????????這些點(diǎn)都處于一個(gè)三維空間里,但我們?nèi)艘豢淳椭浪褚粔K卷起來(lái)的布,圖中圈出來(lái)的兩個(gè)點(diǎn)更合理的距離是A中藍(lán)色實(shí)線標(biāo)注的距離,而不是兩個(gè)點(diǎn)之間的歐式距離(A中藍(lán)色虛線)。?
????????????????此時(shí)如果你要用PCA降維的話,它根本無(wú)法發(fā)現(xiàn)這樣卷曲的結(jié)構(gòu)(因?yàn)镻CA是典型的線性降維,而圖示的結(jié)構(gòu)顯然是非線性的),最后的降維結(jié)果就會(huì)一團(tuán)亂麻,沒(méi)法很好的反映點(diǎn)之間的關(guān)系。而流形學(xué)習(xí)在這樣的場(chǎng)景就會(huì)有很好的效果 。?
????????????????????????????????????????????????????????????????????
3.2 流形學(xué)習(xí)的步驟
通過(guò)kNN(k-Nearest Neighbor)找到點(diǎn)的k個(gè)最近鄰(小范圍),將它們連接起來(lái)構(gòu)造一張圖。
通過(guò)計(jì)算圖中各點(diǎn)之間的最短路徑,作為點(diǎn)之間的距離dij放入距離矩陣D
將D傳給流形學(xué)習(xí)算法(MDS),得到降維后的結(jié)果。
?????????????????????????????????????????
3.3 PCA與流形學(xué)習(xí)對(duì)比
PCA:提供點(diǎn)的坐標(biāo)降維,找出最能體現(xiàn)數(shù)據(jù)特點(diǎn)的特征?
流形學(xué)習(xí):提供點(diǎn)之間距離的降維,更注重原始數(shù)據(jù)之間的相對(duì)關(guān)系并展現(xiàn)出來(lái)(多維結(jié)構(gòu))
4 各種降維方法展示
????????????????????????????????????????
---------------------?
作者:撇味大白菜?
來(lái)源:CSDN?
原文:https://blog.csdn.net/weixin_42219368/article/details/81009387?
版權(quán)聲明:本文為博主原創(chuàng)文章,轉(zhuǎn)載請(qǐng)附上博文鏈接!
總結(jié)
- 上一篇: 初探百度大数据分析挖掘平台Jarvis
- 下一篇: categorical data and