當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

数据预处理与降维

發(fā)布時(shí)間：2025/3/19 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了数据预处理与降维小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1 為什么要進(jìn)行數(shù)據(jù)預(yù)處理

1.1 數(shù)據(jù)清洗
1.1.1 數(shù)據(jù)清洗常見(jiàn)問(wèn)題
a. 缺失值處理
b. 噪聲數(shù)據(jù)處理
c. 異常值處理
d. 臟數(shù)據(jù)處理
e. 去重處理
f. ETL - extract、transform、load
g. 離群點(diǎn)與噪聲
????????????????噪聲：被測(cè)量的變量的隨機(jī)誤差或者方差（一般指錯(cuò)誤的數(shù)據(jù)）?
????????????????離群點(diǎn)：數(shù)據(jù)集中包含一些數(shù)據(jù)對(duì)象，他們與數(shù)據(jù)的一般行為或模型不一致。（正常值，但偏離大多數(shù)數(shù)據(jù)）?

h. 數(shù)據(jù)清洗常見(jiàn)問(wèn)題簡(jiǎn)介

1.2 數(shù)據(jù)變換的一般方法

1.3 離群點(diǎn)檢測(cè)

1.4 數(shù)據(jù)簡(jiǎn)化
1.4.1 數(shù)據(jù)簡(jiǎn)化定義
????????????????也稱為數(shù)據(jù)“規(guī)約”，指在盡可能保持?jǐn)?shù)據(jù)原貌的前提下，最大限度地精簡(jiǎn)數(shù)據(jù)量，它小得多，但是保持原始數(shù)據(jù)的完整性。也就是說(shuō)，在歸約后的數(shù)據(jù)集上挖掘更有效果，仍然產(chǎn)生相同( 或幾乎形同)的分析結(jié)果。注意：用于數(shù)據(jù)歸約的時(shí)間不應(yīng)當(dāng)超過(guò)或“抵消”在歸約后的數(shù)據(jù)挖掘上挖掘節(jié)省的時(shí)間。

1.4.2 數(shù)據(jù)簡(jiǎn)化常見(jiàn)方法
a. 維規(guī)約 - 即“降維”
????????????????也稱“降維”，減少要考慮的變量及屬性的個(gè)數(shù)。方法包括小波變換和主成分分析，他們把原始數(shù)據(jù)變換或投影到較小的空間。另外屬性子集選擇也是一種維歸約方法，其中不相關(guān)、弱相關(guān)或冗余的屬性或維被檢測(cè)和刪除。

b. 數(shù)量規(guī)約
????????????????用替代的、較小的數(shù)據(jù)表示形式替換原始數(shù)據(jù)。

c. 數(shù)據(jù)壓縮
????????????????使用變換，以便得到原始數(shù)據(jù)的歸約或“壓縮”表示。如果原始數(shù)據(jù)可以從壓縮后的數(shù)據(jù)重構(gòu)，而不損失信息，則該數(shù)據(jù)歸約稱為無(wú)損的。反之，稱之為有損的。維歸約和數(shù)量歸約也可以視為某種形式的數(shù)據(jù)壓縮。

2 數(shù)據(jù)降維
2.1 選擇合適的角度投影，你將看到更多的信息
????????????????????????????????????????????????????????????????

2.1 什么是數(shù)據(jù)降維
2.1.1 概念：將數(shù)據(jù)從高維特征空間向低緯特征空間映射的過(guò)程
2.1.2 目的：直觀地好處是維度降低了，便于計(jì)算和可視化，其更深層次的意義在于有效信息的提取綜合及無(wú)用信息的擯棄。
????????????????????????????????????????????????????????????????

2.2 為什么要進(jìn)行數(shù)據(jù)降維
2.2.1 共線性
????????????????數(shù)據(jù)的多重共線性：特征屬性之間存在著相互關(guān)聯(lián)關(guān)系。多重共線性會(huì)導(dǎo)致解的空間不穩(wěn)定，從而導(dǎo)致模型的泛化能力弱；

2.2.2 稀疏性
????????????????高緯空間樣本具有稀疏性，導(dǎo)致模型比較難找到數(shù)據(jù)特征；

2.2.3 找規(guī)律
????????????????過(guò)多的變量會(huì)妨礙模型查找規(guī)律；

2.2.4 潛在關(guān)系
????????????????僅僅考慮單個(gè)變量對(duì)于目標(biāo)屬性的影響可能忽略變量之間的潛在關(guān)系；

2.2.5 減少特征屬性
????????????????減少特征屬性的個(gè)數(shù)；

2.2.6 相互獨(dú)立
????????????????確保特征屬性之間是相互獨(dú)立的；

2.3 數(shù)據(jù)降維的好處
????????????????有時(shí)候也存在特征矩陣過(guò)大，導(dǎo)致計(jì)算量比較大，訓(xùn)練時(shí)間長(zhǎng)的問(wèn)題。?
????????????????降維可以方便數(shù)據(jù)可視化+數(shù)據(jù)分析+數(shù)據(jù)壓縮+數(shù)據(jù)提取等。

2.4 數(shù)據(jù)降維的常見(jiàn)方法
????????????????????????????????????????????????????????????????

2.4.1 LDA(線性判別式分析)法
????????????????LDA的思想可以用一句話概括，就是“投影后類內(nèi)方差最小，類間方差最大”。我們要將數(shù)據(jù)在低維度上進(jìn)行投影，投影后希望每一種類別數(shù)據(jù)的投影點(diǎn)盡可能的接近，而不同類別的數(shù)據(jù)的類別中心之間的距離盡可能的大。

a. 優(yōu)點(diǎn)
在降維過(guò)程中可以使用類別的先驗(yàn)知識(shí)經(jīng)驗(yàn)，而像PCA這樣的無(wú)監(jiān)督學(xué)習(xí)則無(wú)法使用類別先驗(yàn)知識(shí)；
LDA在樣本分類信息依賴均值而不是方差的時(shí)候，比PCA之類的算法較優(yōu)；
b. 缺點(diǎn)
LDA不適合對(duì)非高斯分布樣本進(jìn)行降維，PCA也有這個(gè)問(wèn)題。
LDA降維最多降到類別數(shù)k-1的維數(shù)，如果我們降維的維度大于k-1，則不能使用LDA。當(dāng)然目前有一些LDA的進(jìn)化版算法可以繞過(guò)這個(gè)問(wèn)題；
LDA在樣本分類信息依賴方差而不是均值的時(shí)候，降維效果不好；
LDA可能過(guò)度擬合數(shù)據(jù)
2.4.2 PCA(主成分分析)法：
????????????????主成分分析（Principal components analysis，以下簡(jiǎn)稱PCA）是重要的降維方法之一。PCA顧名思義，就是找出數(shù)據(jù)里最主要的方面，用數(shù)據(jù)里最主要的方面來(lái)代替原始數(shù)據(jù)。中心思想：“使得降維后數(shù)據(jù)整體的方差最大！”

2.5 PCA與LDA降維方法對(duì)比分析

?????????????????
?????????????????????? A：PCA降維????????????????????????????????????????????????????????????????????????????????????????????????????????????B:LDA降維

PCA與LDA的區(qū)別

3 流形學(xué)習(xí)方法
3.1 流形學(xué)習(xí)思想
????????????????基本思想就是在高維空間中發(fā)現(xiàn)低維結(jié)構(gòu)。?

?????????????????????????????????????????????????????????????????????????????????????????
????????????????這些點(diǎn)都處于一個(gè)三維空間里，但我們?nèi)艘豢淳椭浪褚粔K卷起來(lái)的布，圖中圈出來(lái)的兩個(gè)點(diǎn)更合理的距離是A中藍(lán)色實(shí)線標(biāo)注的距離，而不是兩個(gè)點(diǎn)之間的歐式距離（A中藍(lán)色虛線）。?
????????????????此時(shí)如果你要用PCA降維的話，它根本無(wú)法發(fā)現(xiàn)這樣卷曲的結(jié)構(gòu)（因?yàn)镻CA是典型的線性降維，而圖示的結(jié)構(gòu)顯然是非線性的），最后的降維結(jié)果就會(huì)一團(tuán)亂麻，沒(méi)法很好的反映點(diǎn)之間的關(guān)系。而流形學(xué)習(xí)在這樣的場(chǎng)景就會(huì)有很好的效果。?
????????????????????????????????????????????????????????????????????

3.2 流形學(xué)習(xí)的步驟
通過(guò)kNN(k-Nearest Neighbor)找到點(diǎn)的k個(gè)最近鄰(小范圍)，將它們連接起來(lái)構(gòu)造一張圖。
通過(guò)計(jì)算圖中各點(diǎn)之間的最短路徑，作為點(diǎn)之間的距離dij放入距離矩陣D
將D傳給流形學(xué)習(xí)算法（MDS），得到降維后的結(jié)果。
?????????????????????????????????????????

3.3 PCA與流形學(xué)習(xí)對(duì)比
PCA：提供點(diǎn)的坐標(biāo)降維，找出最能體現(xiàn)數(shù)據(jù)特點(diǎn)的特征?
流形學(xué)習(xí)：提供點(diǎn)之間距離的降維，更注重原始數(shù)據(jù)之間的相對(duì)關(guān)系并展現(xiàn)出來(lái)(多維結(jié)構(gòu))

4 各種降維方法展示
????????????????????????????????????????
---------------------?
作者：撇味大白菜?
來(lái)源：CSDN?
原文：https://blog.csdn.net/weixin_42219368/article/details/81009387?
版權(quán)聲明：本文為博主原創(chuàng)文章，轉(zhuǎn)載請(qǐng)附上博文鏈接！

總結(jié)

以上是生活随笔為你收集整理的数据预处理与降维的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

数据

上一篇：初探百度大数据分析挖掘平台Jarvis
下一篇： categorical data and

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

数据预处理与降维

總結(jié)