日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习——PAC

發布時間:2024/3/12 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习——PAC 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 一、數據壓縮
  • 二、可視化
  • 三、PAC問題規劃1
  • 四、PAC問題規劃2
  • 五、主成分數量選擇
  • 六、應用PAC的建議


提示:本文是基于吳恩達老師機器學習視頻總結

一、數據壓縮

降維首先是可以用于數據壓縮的,例如將2維數據降維成一維數據,如下圖所示:

二、可視化

降維還可以將原本無法可視化的數據通過降維從而進行可視化。
如下圖是各國的各項數據,因為特征較多,因此無法進行可視化:

將這50維的數據壓縮為2維,之前需要一個向量中50個實數表示一個國家,想在只需要2個實數。

三、PAC問題規劃1

我們直觀的看一下PAC的效果。

假設我們已經通過算法選擇了要投影的線是橙色那條,那么我們可以用藍色的線繪制出它的投影誤差,我們要做的其實就是時投影誤差盡可能地小。
為了作出對比,我們繪制了下面一條粉紅色的線,可以見到它的投影誤差則是比較大的。

假如我們想從2維壓縮成1維:那么就需要找到一個向量(方向沒有關系),使得數據的投影誤差最小。
進行推廣,我們可以得到多維壓縮的定義。假如我們想從n維壓縮成k維:那么就需要找到k個向量u(1)、u(2)、…、u(k),使得數據的投影誤差最小。


上圖是展示了線性回歸和PCA的區別,如圖所示:(左圖代表線性回歸,右圖代表PCA)

四、PAC問題規劃2

在我們進行PCA處理前,我們首先需要對數據進行預處理。
其中我們需要將數據進行均值歸一化 (歸一化問題可以看這篇文章),也就是進行下列操作:

下面介紹具體如何使用PCA算法:
現在假設我們需要將n維度的數據降成k維度
1、首先要先計算出協方差,具體表達式如下:(其中σ是一個n*n的矩陣)

2、通過SVD函數計算出協方差σ的特征向量

3、我們需要使用的是U矩陣(n*n的矩陣),如下圖所示

4、因為我們想降至k維,因此我們就要從U矩陣中取出u(1)~ u(k) ,從而構建新的矩陣(n*k的矩陣),稱為Ureduce

5、最后我們要將n維的x降成k維的z,其中z=(Ureduce)TX

五、主成分數量選擇

在利用PCA算法的時候,我們需要確定降至的維度k,這個k同樣也被稱為數據主要成分的數量或者數據的主要成分保留的數量,這一小節就來討論一下如何選擇k。
PCA算法主要做的工作就是最小化average squard projection error,也就是要最小化下面這個表達式:

同時,我們還需要定義total variation(可以理解為樣本和全零點之間的舉例),也就是下面這個表達式:

當我們想要選擇k時,通用的原則是選擇下面不等式成立的最小k,如下所示:

并且,我們也可以調整0.01這個數字來調整被保留的完整性。上式就表示百分之99的方差被保留了下來。

下面介紹如何完成k選擇的算法:

1.我們從k=1開始,使用PCA算法計算這些值
2.然后檢查不等式是否成立
3.如果不成立就換k=2,k=3,…,如此繼續。假設到k=17時成立了,那么就選擇k=17

如此可見,上面這個算法比較麻煩,好在svd方法提供了簡便的計算方式。

1.首先我們通過svd算法得到相應的矩陣

2.S矩陣是一個對角矩陣,只有對角線上的數字非零

3.然后我們就開始計算過程,我們可以用下面的表達式代替計算之前的不等式。假設我們計算k=3,分子就是S11、S22、S33求和,分母是全部對角線元素求和。我們要檢查的就是它是否小于等于0.01,同樣是選擇能夠滿足不等式的最小k

如果這樣做,你就只需要調用一次svd,節省了許多時間

六、應用PAC的建議

下面則是介紹了PCA算法在較少數據維度的應用,如下圖所示:

基本思想:將原本高維度的數據x降至低維度的z,然后采用z建立模型進行訓練。

需要特別注意以下幾個方面:
1、PCA算法只能運行在訓練集上,在交叉驗證集或測試集中同樣也是使用訓練集建立的映射。(也就是在后面進行預測時要使用測試集計算出來的Ureduce)
2、不要使用PCA去防止過擬合,因此PCA可能會損失一些重要的特征,使用正則化的方法去防止過擬合更有效果
3、如果能夠在不使用PCA的情況下計算得到結果,那么就不要使用PCA。如果沒辦法計算得到(運行性太慢等等情況),再使用PCA。

總結

以上是生活随笔為你收集整理的机器学习——PAC的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。