机器学习--降维
降維(Dimensionality Reduction)
視頻參考:【機(jī)器學(xué)習(xí)】【白板推導(dǎo)系列】【合集 1~33】_嗶哩嗶哩_bilibili
筆記參考:降維 · 語雀 (yuque.com)
PCA原理詳解:主成分分析(PCA)原理詳解 - 知乎 (zhihu.com)
PCA數(shù)學(xué)原理解釋:CodingLabs - PCA的數(shù)學(xué)原理
SVD奇異值分解:?奇異值分解(SVD) - 知乎 (zhihu.com)
過擬合
- 增加數(shù)據(jù)
- 正則化
- 降維
- 直接降維(特征選擇)
- 線性降維(PCA、MDS)
- 非線性降維(流形學(xué)習(xí)(Isomap、LLE))
維度災(zāi)難(數(shù)據(jù)稀疏性):幾何角度
對(duì)于高維空間而言, 維度越高,球形體的體積越小
樣本均值 & 樣本協(xié)方差矩陣
- ?表示存在N個(gè)數(shù)據(jù),其中每個(gè)數(shù)據(jù)維度為P維
- 表示為中心矩陣, 其中
主成分分析(PCA)
最大的投影方向, 叫做主成分
一個(gè)中心:原始特征空間的重構(gòu)
兩個(gè)基本點(diǎn):
- 最大投影方差
- 最小重構(gòu)距離
最大投影方差? --> 尋找投影后距離范圍最大的向量
?一、計(jì)算兩個(gè)向量之間的投影值? =>?表示向量的投影
二、計(jì)算方差最小值J,
其中?
最小重構(gòu)代價(jià) --> 降低特征維度損失最小
?一、對(duì)于向量重新選擇向量基, 將維度由p維 降到 q維
二、計(jì)算最小重構(gòu)代價(jià),轉(zhuǎn)換為最優(yōu)化問題, 其中求解最小值
SVD角度看PCA
方差矩陣S,?, , 方差矩陣S是對(duì)稱矩陣, 對(duì)方差矩陣S進(jìn)行特征分解就是奇異值分解
奇異值SVD分解:奇異值分解(SVD) - 知乎 (zhihu.com)
SVD的作用就相當(dāng)于是一個(gè)坐標(biāo)系變換的過程,從一個(gè)不標(biāo)準(zhǔn)的n維坐標(biāo)系,轉(zhuǎn)換為一個(gè)標(biāo)準(zhǔn)的k維坐標(biāo)系,并且使這個(gè)數(shù)據(jù)集中的點(diǎn),到這個(gè)新坐標(biāo)系的歐式距離為最小值(也就是這些點(diǎn)在這個(gè)新坐標(biāo)系中的投影方差最大化),其實(shí)就是一個(gè)最小二乘的過程。
進(jìn)一步,如何使數(shù)據(jù)在新坐標(biāo)系中的投影最大化呢,那么我們就需要讓這個(gè)新坐標(biāo)系中的基盡可能的不相關(guān),我們可以用協(xié)方差來衡量這種相關(guān)性。A^T·A中計(jì)算的便是n×n的協(xié)方差矩陣,每一個(gè)值代表著原來的n個(gè)特征之間的相關(guān)性。當(dāng)對(duì)這個(gè)協(xié)方差矩陣進(jìn)行特征分解之后,我們可以得到奇異值和右奇異矩陣,而這個(gè)右奇異矩陣則是一個(gè)新的坐標(biāo)系,奇異值則對(duì)應(yīng)這個(gè)新坐標(biāo)系中每個(gè)基對(duì)于整體數(shù)據(jù)的影響大小,我們這時(shí)便可以提取奇異值最大的k個(gè)基,作為新的坐標(biāo),這便是PCA的原理。
使用SVD奇異值分解, 直接獲取主成分分析 or 主坐標(biāo)分析
X表示數(shù)據(jù), HX表示中心化數(shù)據(jù), 對(duì)HX進(jìn)行奇異值分解得到
概率角度P-PCA
完全沒有聽懂
?
總結(jié)
- 上一篇: CCCC L1-002. 打印沙漏【图形
- 下一篇: [洛谷P1231] 教辅的组成