日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

“有趣”的投影:当PCA失效时怎么办?

發布時間:2024/8/23 编程问答 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 “有趣”的投影:当PCA失效时怎么办? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目前,大多數的數據科學家都比較熟悉主成分分析 (Principal Components Analysis,PCA),它是一個探索性的數據分析工具。可以這樣簡要的描述:研究人員經常使用PCA來降低維度,希望在他們的數據中找出有用的信息(例如疾病與非疾病的分類)。PCA是通過尋找正交投影(Orthogonal Projection)向量來實現這一點的,正交投影向量說明了數據中的最大方差量。在實踐中,這通常是用奇異值分解(Singular Value Decomposition,SVD)的方法來找到主成分(特征向量),并通過其對數據總方差的貢獻(特征值)加權。毫無疑問,在我的專業領域以及許多其它的領域中,PCA是最常用的數據分析工具,但是當它不起作用的時候會發生什么呢?這是否意味著抽樣試驗的效果不好呢?這是否意味著數據中沒有有用的信息呢?我們的小組致力于為化學專業開發新的數據分析工具。在這里,我要給為大家介紹一個PCA的替代方案,叫做投影追蹤分析(Projection Pursuit Analysis ,PPA)。

基于方差運算的PCA

PCA失敗在哪了呢?像上面描述的那樣,PCA通過在數據中找到最大方差的方向來進行操作。那么如果投射到那個方向上沒有效果呢?下圖是由200個樣本的模擬數據組成的,這些數據形成了兩個分離的集群,它們沿著Y軸的方差大于沿著X軸的方差。如果我們對這個二維數據進行PCA操作,那么會得到投影向量v,它將是2×1的列向量([0;1])。投射到這個向量上的原始數據X(200x2)給出了我們的得分T=Xv。在把這些得分可視化之后表明了兩個集群之間沒有明顯的分離。相反,如果我們投射到x軸上(v=[1;0]),那么很容易地就會看到這兩個集群中的分離狀態。那么我們如何在高維的數據中找到這個向量呢?

投影追蹤

投影追蹤方法最初是由Friedman和Tukey在1974年的時候提出來的,他們試圖根據投影指數的最大化或最小化來在數據中找到“有趣的”投影。通過擴展,在PCA框架中,投影指數(方差)被最大化了。現在的問題是,什么樣的是好的預測指數呢?數據科學家們在定義新的投影指數方面已經做了大量的研究,但是今天我要關注的一個已經被證明對探索化學領域數據有用的指標是峰態系數(kurtosis)。

基于峰態系數的投影追蹤(Kurtosis-based projection pursuit)

第四個統計矩,峰態系數,已被證明了是一個很有用的投影指數

當峰態系數最大化時,它往往會顯示數據中的異常值。這會有些用處,但是實際上它并不是我們想要尋找并顯示類或集群信息的東西。然而,當峰態系數最小化時,它將1個維度中的數據分為2組(2個維度中分為4組,3個維度中分為8組)。

峰態系數最小化

現在最大的問題是如何使用峰態系數查找這些投影向量?本文中,Hou和Wentzell證明了利用下面的學習算法可以找到最小化峰態系數的投影向量:

實例模擬

讓我們同時利用PCA和PPA兩種技術來模擬一些數據。與打開的圖形類似,我們的數據將會分為兩個類,每個類有100個樣本,并且只需要1個維度來顯示類分離。第一個類在x軸上以-4為中心,標準偏差為5,而第二類則以+4為中心,標準偏差也是5。

為了使這個模擬更真實,讓我們通過乘以一個2 x 600的隨機旋轉矩陣,將這個200 x 2的矩陣旋轉為600個維度。這就是我們現在需要利用探索工具來找到數據中一些有趣的投影的地方。首先,讓列的平均值集中我們的數據,同時應用PCA,并將第一個成分可視化為一個樣本數量的函數。

我們會看到,向下投射到第一個PC上的數據不會顯示類信息。那我們現在就來應用PPA。

PPA能夠找到對我們有用的投影(即提供類分離的投影)。

PPA的問題

盡管在大多數的情況下,我們發現PPA的性能都優于PCA,但是當PPA沒有效果的時候,有一些重要的注意事項需要在這里說明一下。當類的大小不相等的時候,PPA就不會正常地工作了,例如,如果我在上面的實例中使用5:1的類比率并應用PPA,我們會得到以下結果:

由于分離的幾何學方面的原因,當類的數量不是2的n次方時,PPA也會有問題。PPA也會遇到過度擬合問題,并且通常需要執行數據壓縮,大約需要10:1的樣本與變量比率。否則,該算法就將人工地把樣本忽略掉。我們小組目前的工作是開發一些能緩解這些問題的方法,好消息是我們應該在未來的幾個月之內就會發表一些關于這方面的論文!我一定會及時通知大家的。

?

原文鏈接
本文為云棲社區原創內容,未經允許不得轉載。

總結

以上是生活随笔為你收集整理的“有趣”的投影:当PCA失效时怎么办?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。