日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

主成分分析碎石图_ISLR读书笔记十九:主成分分析(PCA)

發布時間:2025/3/15 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 主成分分析碎石图_ISLR读书笔记十九:主成分分析(PCA) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
本文使用 Zhihu On VSCode 創作并發布

前面寫的一些統計學習方法都是屬于監督學習(supervised learning),這篇主成分分析(principal components analysis,簡稱 PCA )和下一篇聚類分析(clustering)都是屬于非監督學習(unsupervised learning)。

之前 ISLR讀書筆記十二 中已經提到過主成分這一概念。其主要目的是利用一小部分數據組合,盡可能多地體現 全部數據的特征,從而實現降維的作用。

這里的 盡可能多地體現 可以有兩種解讀:

  • 將數據投影到方差最大的方向上,盡可能保留方差信息
  • 2. 低維空間下的最佳近似。

    從第一種解讀出發,計算第一主成分:

    這里要求

    , 稱作加載(loadings), 稱作加載向量(loading vector)
    由于只關心數據的方差,所以可以對數據進行中心化,即要求
    對于每一個分量

    第一主成分使得樣本方差最大。即

    由于

    ,所以即,使得 最大。這里, 稱作分數(scores)

    該優化問題,可以用奇異值分解(SVD)的方法解得。

    第二主成分是所有與第一主成分

    不相關(uncorrelated)的,關于 的線性組合中,方差最大的線性組合。令

    可以證明

    與 不相關,等價于加載向量 與 正交。

    第三主成分是所有與

    、 不相關(uncorrelated)的,關于 的線性組合中,方差最大的線性組合。以此類推。

    從第二種解讀出發,第一主成分加載向量是

    維空間中,最接近 個觀測數據的直線(在歐式距離平方的均值下最接近)。
    更一般地,前 個主成分的分數向量和加載向量,構成了原始 維數據在 維空間的最佳近似,即

    另外 PCA 還有其他一些需要注意的點:

    規模化:

    數據通常需要提前進行規模化(scaled)(每個變量乘以不同的常數),使得每個自變量的標準差為1。否則如果有部分變量方差特別大,那么PCA 的結果會受很大影響。

    唯一性

    每一個主成分在相差一個正負號的意義下式唯一的

    被解釋方差比例

    我們通常關心前幾個主成分反映了多少方差
    數據總方差定義如下

    個主成分的被解釋方差定義如下:

    個主成分被解釋方差的比例(proportion of variance explained)
    即為

    決定主成分的個數

    可以通過碎石圖(scree plot),來決定主成分的個數
    方法是尋找一個點,在這個點之后的點,主成分被解釋方差比例很小

    總結

    以上是生活随笔為你收集整理的主成分分析碎石图_ISLR读书笔记十九:主成分分析(PCA)的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。