日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

Stanford UFLDL教程 数据预处理

發布時間:2025/3/21 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Stanford UFLDL教程 数据预处理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據預處理

Contents

[hide]
  • 1概要
  • 2數據歸一化
    • 2.1簡單縮放
    • 2.2逐樣本均值消減
    • 2.3特征標準化
  • 3PCA/ZCA白化
    • 3.1基于重構的模型
    • 3.2基于正交化ICA的模型
  • 4大圖像
  • 5標準流程
    • 5.1自然灰度圖像
    • 5.2彩色圖像
    • 5.3音頻 (MFCC/頻譜圖)
    • 5.4MNIST 手寫數字
  • 6中英文對照
  • 7中文譯者

概要

數據預處理在眾多深度學習算法中都起著重要作用,實際情況中,將數據做歸一化和白化處理后,很多算法能夠發揮最佳效果。然而除非對這些算法有豐富的使用經驗,否則預處理的精確參數并非顯而易見。在本頁中,我們希望能夠揭開預處理方法的神秘面紗,同時為預處理數據提供技巧(和標準流程)。

提示:當我們開始處理數據時,首先要做的事是觀察數據并獲知其特性。本部分將介紹一些通用的技術,在實際中應該針對具體數據選擇合適的預處理技術。例如一種標準的預處理方法是對每一個數據點都減去它的均值(也被稱為移除直流分量,局部均值消減,消減歸一化),這一方法對諸如自然圖像這類數據是有效的,但對非平穩的數據則不然。


數據歸一化

數據預處理中,標準的第一步是數據歸一化。雖然這里有一系列可行的方法,但是這一步通常是根據數據的具體情況而明確選擇的。特征歸一化常用的方法包含如下幾種:

  • 簡單縮放
  • 逐樣本均值消減(也稱為移除直流分量)
  • 特征標準化(使數據集中所有特征都具有零均值和單位方差)


簡單縮放

在簡單縮放中,我們的目的是通過對數據的每一個維度的值進行重新調節(這些維度可能是相互獨立的),使得最終的數據向量落在 [0,1][ ? 1,1] 的區間內(根據數據情況而定)。這對后續的處理十分重要,因為很多默認參數(如 PCA-白化中的 epsilon)都假定數據已被縮放到合理區間。

例子:在處理自然圖像時,我們獲得的像素值在 [0,255] 區間中,常用的處理是將這些像素值除以 255,使它們縮放到[0,1] 中.


逐樣本均值消減

如果你的數據是平穩的(即數據每一個維度的統計都服從相同分布),那么你可以考慮在每個樣本上減去數據的統計平均值(逐樣本計算)。

例子:對于圖像,這種歸一化可以移除圖像的平均亮度值 (intensity)。很多情況下我們對圖像的照度并不感興趣,而更多地關注其內容,這時對每個數據點移除像素的均值是有意義的。注意:雖然該方法廣泛地應用于圖像,但在處理彩色圖像時需要格外小心,具體來說,是因為不同色彩通道中的像素并不都存在平穩特性。


特征標準化

特征標準化指的是(獨立地)使得數據的每一個維度具有零均值和單位方差。這是歸一化中最常見的方法并被廣泛地使用(例如,在使用支持向量機(SVM)時,特征標準化常被建議用作預處理的一部分)。在實際應用中,特征標準化的具體做法是:首先計算每一個維度上數據的均值(使用全體數據計算),之后在每一個維度上都減去該均值。下一步便是在數據的每一維度上除以該維度上數據的標準差。

例子:處理音頻數據時,常用 Mel 倒頻系數 MFCCs 來表征數據。然而MFCC特征的第一個分量(表示直流分量)數值太大,常常會掩蓋其他分量。這種情況下,為了平衡各個分量的影響,通常對特征的每個分量獨立地使用標準化處理。


PCA/ZCA白化

在做完簡單的歸一化后,白化通常會被用來作為接下來的預處理步驟,它會使我們的算法工作得更好。實際上許多深度學習算法都依賴于白化來獲得好的特征。

在進行 PCA/ZCA 白化時,首先使特征零均值化是很有必要的,這保證了 。特別地,這一步需要在計算協方差矩陣前完成。(唯一例外的情況是已經進行了逐樣本均值消減,并且數據在各維度上或像素上是平穩的。)

接下來在 PCA/ZCA 白化中我們需要選擇合適的 epsilon(回憶一下,這是規則化項,對數據有低通濾波作用)。 選取合適的 epsilon 值對特征學習起著很大作用,下面討論在兩種不同場合下如何選取 epsilon:


基于重構的模型

在基于重構的模型中(包括自編碼器,稀疏編碼,受限 Boltzman 機(RBM),k-均值(K-Means)),經常傾向于選取合適的 epsilon 以使得白化達到低通濾波的效果。(譯注:通常認為數據中的高頻分量是噪聲,低通濾波的作用就是盡可能抑制這些噪聲,同時保留有用的信息。在 PCA 等方法中,假設數據的信息主要分布在方差較高的方向,方差較低的方向是噪聲(即高頻分量),因此后文中epsilon 的選擇與特征值有關)。一種檢驗 epsilon 是否合適的方法是用該值對數據進行 ZCA 白化,然后對白化前后的數據進行可視化。如果epsilon 值過低,白化后的數據會顯得噪聲很大;相反,如果 epsilon 值過高,白化后的數據與原始數據相比就過于模糊。一種直觀上得到epsilon 大小的方法是以圖形方式畫出數據的特征值,如下圖的例子所示,你可以看到一條"長尾",它對應于數據中的高頻噪聲部分。你需要選取合適的epsilon,使其能夠在很大程度上過濾掉這條"長尾",也就是說,選取的 epsilon 應大于大多數較小的、反映數據中噪聲的特征值。

在基于重構的模型中,損失函數有一項是用于懲罰那些與原始輸入數據差異較大的重構結果(譯注:以自動編碼機為例,要求輸入數據經過編碼和解碼之后還能盡可能的還原輸入數據)。如果epsilon 太小,白化后的數據中就會包含很多噪聲,而模型要擬合這些噪聲,以達到很好的重構結果。因此,對于基于重構的模型來說,對原始數據進行低通濾波就顯得非常重要。

提示:如果數據已被縮放到合理范圍(如[0,1]),可以從epsilon = 0.01epsilon = 0.1開始調節epsilon。


基于正交化ICA的模型

對基于正交化ICA的模型來說,保證輸入數據盡可能地白化(即協方差矩陣為單位矩陣)非常重要。這是因為:這類模型需要對學習到的特征做正交化,以解除不同維度之間的相關性(詳細內容請參考ICA 一節)。因此在這種情況下,epsilon 要足夠小(比如 epsilon = 1e ? 6)。

提示:我們也可以在PCA白化過程中同時降低數據的維度。這是一個很好的主意,因為這樣可以大大提升算法的速度(減少了運算量和參數數目)。確定要保留的主成分數目有一個經驗法則:即所保留的成分的總方差達到總樣本方差的 99% 以上。(詳細內容請參考 PCA)


注意: 在使用分類框架時,我們應該只基于練集上的數據計算PCA/ZCA白化矩陣。需要保存以下兩個參數留待測試集合使用:(a)用于零均值化數據的平均值向量;(b)白化矩陣。測試集需要采用這兩組保存的參數來進行相同的預處理。


大圖像

對于大圖像,采用基于 PCA/ZCA 的白化方法是不切實際的,因為協方差矩陣太大。在這些情況下我們退而使用 1/f 白化方法(更多內容后續再講)。


標準流程

在這一部分中,我們將介紹幾種在一些數據集上有良好表現的預處理標準流程.


自然灰度圖像

灰度圖像具有平穩特性,我們通常在第一步對每個數據樣本分別做均值消減(即減去直流分量),然后采用 PCA/ZCA 白化處理,其中的 epsilon 要足夠大以達到低通濾波的效果。


彩色圖像

對于彩色圖像,色彩通道間并不存在平穩特性。因此我們通常首先對數據進行特征縮放(使像素值位于 [0,1] 區間),然后使用足夠大的epsilon 來做 PCA/ZCA。注意在進行 PCA 變換前需要對特征進行分量均值歸零化。


音頻 (MFCC/頻譜圖)

對于音頻數據 (MFCC 和頻譜圖),每一維度的取值范圍(方差)不同。例如 MFCC 的第一分量是直流分量,通常其幅度遠大于其他分量,尤其當特征中包含時域導數 (temporal derivatives) 時(這是音頻處理中的常用方法)更是如此。因此,對這類數據的預處理通常從簡單的數據標準化開始(即使得數據的每一維度均值為零、方差為 1),然后進行 PCA/ZCA 白化(使用合適的epsilon)。


MNIST 手寫數字

MNIST 數據集的像素值在 [0,255] 區間中。我們首先將其縮放到 [0,1] 區間。實際上,進行逐樣本均值消去也有助于特征學習。注:也可選擇以對 MNIST 進行 PCA/ZCA 白化,但這在實踐中不常用。


中英文對照

歸一化 normalization
白化 whitening
直流分量 DC component
局部均值消減 local mean subtraction
消減歸一化 sparse autoencoder
縮放 rescaling
逐樣本均值消減 per-example mean subtraction
特征標準化 feature standardization
平穩 stationary
Mel倒頻系數 MFCC
零均值化 zero-mean
低通濾波 low-pass filtering
基于重構的模型 reconstruction based models
自編碼器 autoencoders
稀疏編碼 sparse coding
受限Boltzman機 RBMs
k-均值 k-Means
長尾 long tail
損失函數 loss function
正交化 orthogonalization
from: http://ufldl.stanford.edu/wiki/index.php/%E6%95%B0%E6%8D%AE%E9%A2%84%E5%A4%84%E7%90%86

總結

以上是生活随笔為你收集整理的Stanford UFLDL教程 数据预处理的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。