7.4.10 白化 whitening
7.4.10 白化 whitening
回顧PCA,Y=UTAY = U^TAY=UTA 即對數據矩陣 AAA 進行旋轉變換 UTU^TUT 得到主成分 YYY ,矩陣 YYY 的每列數據為每個學生新成績向量。所以 PCA 算法本質上是對數據點云進行旋轉變換,變換后數據矩陣的協方差矩陣為對角陣 Σ2\Sigma^2Σ2 ,即各個主成分無相關性。因為 AAT=UΣ2UTAA^T = U\Sigma^2 U^TAAT=UΣ2UT 即 UUU 是協方差矩陣 AATAA^TAAT 的特征向量組,Σ2\Sigma^2Σ2 是特征值對角陣。
變換后數據矩陣 YYY 線性無關,每個分量的方差為 σi2\sigma^2_iσi2? 。我們還可以進一步變換 Z=Σ?1Y=Σ?1UTAZ=\Sigma^{-1}Y=\Sigma^{-1}U^TAZ=Σ?1Y=Σ?1UTA,使其每個分量的方差為 111 。
ZTZ=YTΣ?TΣ?1Y=YTΣ?TΣ?1Y=ATUΣ?TΣ?1UTA=(VΣTUT)UΣ?TΣ?1UT(UΣVT)=EZ^TZ = Y^T\Sigma^{-T}\Sigma^{-1}Y = Y^T\Sigma^{-T}\Sigma^{-1}Y \\ = A^TU\Sigma^{-T}\Sigma^{-1}U^TA \\ = (V\Sigma^TU^T) U\Sigma^{-T}\Sigma^{-1}U^T (U\Sigma V^T) \\ = E ZTZ=YTΣ?TΣ?1Y=YTΣ?TΣ?1Y=ATUΣ?TΣ?1UTA=(VΣTUT)UΣ?TΣ?1UT(UΣVT)=E
數據矩陣 ZZZ 的協方差矩陣為單位陣 EEE ,即每個分量均值為 000,方差為 111,每個分量從均值和方差角度看都是一樣的,這時稱其為白化數據矩陣。由于白化 Z=Σ?1YZ=\Sigma^{-1}YZ=Σ?1Y,需要除以奇異值,當奇異值趨近 000 時,白化分量會趨于無窮大,造成數值不穩定,而且奇異值趨近 000 的分量基本都是噪聲引起的,故一般只對奇異值較大的主成分進行白化。
白化數據矩陣有個重要性質,即任意正交矩陣 QQQ ,變換數據矩陣 X=QZX=QZX=QZ ,有 XTX=ZTQTQZ=ZTEZ=EX^TX = Z^TQ^TQZ = Z^TEZ = EXTX=ZTQTQZ=ZTEZ=E ,數據矩陣 XXX 也是白化數據矩陣,即白化后的數據矩陣任意旋轉操作后還是白化數據矩陣,在旋轉操作下具有不變性。當正交矩陣取 UUU 時,此時 Z=UΣ?1UTA=WAZ = U\Sigma^{-1}U^TA = WAZ=UΣ?1UTA=WA 稱為 ZCA 白化。白化變換矩陣 W=UΣ?1UTW=U\Sigma^{-1}U^TW=UΣ?1UT 有個重要性質
WWAAT=(UΣ?1UTUΣ?1UT)(UΣ2UT)=EWWAA^T = (U\Sigma^{-1}U^TU\Sigma^{-1}U^T)(U\Sigma^2 U^T) = E WWAAT=(UΣ?1UTUΣ?1UT)(UΣ2UT)=E
即 WWWWWW 是 AATAA^TAAT 的逆矩陣,WWW 是 AATAA^TAAT 的逆矩陣的平方根矩陣。
總結
以上是生活随笔為你收集整理的7.4.10 白化 whitening的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 7.4.8 数据压缩
- 下一篇: 1 高斯分布