日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

pca 累积方差贡献率公式_机器学习数据降维方法:PCA主成分分析

發(fā)布時間:2023/12/4 编程问答 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 pca 累积方差贡献率公式_机器学习数据降维方法:PCA主成分分析 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

PCA在機器學習中很常用,是一種無參數(shù)的數(shù)據(jù)降維方法。PCA步驟:

  • 將原始數(shù)據(jù)按列組成n行m列矩陣X
  • 將X的每一行(代表一個屬性字段)進行零均值化,即減去這一行的均值
  • 求出協(xié)方差矩陣
  • 求出協(xié)方差矩陣的特征值及對應的特征向量
  • 將特征向量按對應特征值大小從上到下按行排列成矩陣,取前k行組成矩陣P
  • Y=PX即為降維到k維后的數(shù)據(jù)
  • 1. PCA的推導

    PCA通過線性變換將原始數(shù)據(jù)變換為一組各維度線性無關的表示,可用于提取數(shù)據(jù)的主要特征分量,常用于高維數(shù)據(jù)的降維。

    我們知道PCA是一種數(shù)據(jù)降維的方法,在降低維度的過程中,我們當然想要保留更多的特征,PCA就是經(jīng)過數(shù)學推導,保留最多特征同時降維的方法。

    在推導之前要先知道幾個基礎知識:

  • 內(nèi)積與投影
  • 兩個維數(shù)相同的向量的內(nèi)積被定義為:

    假設A和B是兩個n維向量,我們知道n維向量可以等價表示為n維空間中的一條從原點發(fā)射的有向線段,為了簡單起見我們假設A和B均為二維向量,則A=(x1,y1),B=(x2,y2)。則在二維平面上A和B可以用兩條發(fā)自原點的有向線段表示,見下圖:

    現(xiàn)在我們從A點向B所在直線引一條垂線。我們知道垂線與B的交點叫做A在B上的投影,再設A與B的夾角是a,則投影的矢量長度為|A|cos(a),其中|A|是向量A的模,也就是A線段的標量長度。

    到這里還是看不出內(nèi)積和這東西有什么關系,不過如果我們將內(nèi)積表示為另一種我們熟悉的形式:

    現(xiàn)在事情似乎是有點眉目了:A與B的內(nèi)積等于A到B的投影長度乘以B的模。再進一步,如果我們假設B的模為1,即讓|B|=1,那么就變成了:

    也就是說,設向量B的模為1,則A與B的內(nèi)積值等于A向B所在直線投影的矢量長度!這就是內(nèi)積的一種幾何解釋,也是我們得到的第一個重要結(jié)論。在后面的推導中,將反復使用這個結(jié)論。

  • 下面我們繼續(xù)在二維空間內(nèi)討論向量。上文說過,一個二維向量可以對應二維笛卡爾直角坐標系中從原點出發(fā)的一個有向線段。例如下面這個向量:

    在代數(shù)表示方面,我們經(jīng)常用線段終點的點坐標表示向量,例如上面的向量可以表示為(3,2),這是我們再熟悉不過的向量表示。

    我們列舉的例子中基是正交的(即內(nèi)積為0,或直觀說相互垂直),但可以成為一組基的唯一要求就是線性無關,非正交的基也是可以的。不過因為正交基有較好的性質(zhì),所以一般使用的基都是正交的。

    3. 基變換的矩陣表示

    一般的,如果我們有M個N維向量,想將其變換為由R個N維向量表示的新空間中,那么首先將R個基按行組成矩陣A,然后將向量按列組成矩陣B,那么兩矩陣的乘積AB就是變換結(jié)果,其中AB的第m列為A中第m列變換后的結(jié)果。(新基按行,向量按列)

    特別要注意的是,這里R可以小于N,而R決定了變換后數(shù)據(jù)的維數(shù)。也就是說,我們可以將一N維數(shù)據(jù)變換到更低維度的空間中去,變換后的維度取決于基的數(shù)量。因此這種矩陣相乘的表示也可以表示降維變換。

    最后,上述分析同時給矩陣相乘找到了一種物理解釋:兩個矩陣相乘的意義是將右邊矩陣中的每一列列向量變換到左邊矩陣中每一行行向量為基所表示的空間中去。更抽象的說,一個矩陣可以表示一種線性變換。很多同學在學線性代數(shù)時對矩陣相乘的方法感到奇怪,但是如果明白了矩陣相乘的物理意義,其合理性就一目了然了。

    4. 協(xié)方差矩陣與優(yōu)化目標

    我們從上面的矩陣乘法與基變換可以看出,當新基的維數(shù)小于原來的維數(shù)時可以做到數(shù)據(jù)的降維,但是究竟如何選擇新基就是我們現(xiàn)在面臨的問題,我們想要選擇一個維數(shù)更小的新基,同時新基保留有更多的信息。我們知道矩陣向新基投影的形式,也就是PCA是將一組N維的特征投影到K維(K

    那么怎么衡量更多的特征,也就是投影后盡量少的重疊,投影值盡可能分散。

    協(xié)方差

    從二維到一維的降維,只需要找到一個一維基使得方差最大,但是三維降到二維呢?我們需要找到兩個基讓這個三維數(shù)據(jù)投影到兩個基上,如果我們找方差最大的兩個基,會發(fā)現(xiàn)他們完全一樣或者線性相關,這和一個基沒什么區(qū)別,不能表達更多的信息,所以我們需要添加限制條件,我們希望這兩個基彼此線性無關,擴展到K個基也是一樣。

    當協(xié)方差為0時,表示兩個字段完全獨立。為了讓協(xié)方差為0,我們選擇第二個基時只能在與第一個基正交的方向上選擇。因此最終選擇的兩個方向一定是正交的。

    至此,我們得到了降維問題的優(yōu)化目標:將一組N維向量降為K維(K大于0,小于N),其目標是選擇K個單位(模為1)正交基,使得原始數(shù)據(jù)變換到這組基上后,各字段兩兩間協(xié)方差為0,而字段的方差則盡可能大(在正交的約束下,取最大的K個方差)。

    關于PCA的貢獻率與K的選擇

    在我的文章特征值和特征向量中說過,特征值反映了矩陣對于特征向量的拉伸程度,只有拉伸而沒有旋轉(zhuǎn),也就是在特征向量方向上的作用程度,所以在PCA中我們選取前K個特征向量組成新基進行投影,就是因為原特征在前K個特征向量有最大的作用程度。

    投影過后可以保留更多的信息,作用程度是用特征值表示的,所以我們可以使用下面的式子表示貢獻率,貢獻率是表示投影后信息的保留程度的變量,也就是特征值的總和比上前K個特征值,一般來說貢獻率要大于85%。

    (1)獲取更多優(yōu)質(zhì)內(nèi)容及精彩資訊,可前往:https://www.cda.cn/?seo

    (2)了解更多數(shù)據(jù)領域的優(yōu)質(zhì)課程:

    總結(jié)

    以上是生活随笔為你收集整理的pca 累积方差贡献率公式_机器学习数据降维方法:PCA主成分分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。