當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Stanford UFLDL教程自编码算法与稀疏性

發布時間：2025/3/21 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了 Stanford UFLDL教程自编码算法与稀疏性小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

自編碼算法與稀疏性

目前為止，我們已經討論了神經網絡在有監督學習中的應用。在有監督學習中，訓練樣本是有類別標簽的。現在假設我們只有一個沒有帶類別標簽的訓練樣本集合，其中。自編碼神經網絡是一種無監督學習算法，它使用了反向傳播算法，并讓目標值等于輸入值，比如。下圖是一個自編碼神經網絡的示例。

自編碼神經網絡嘗試學習一個的函數。換句話說，它嘗試逼近一個恒等函數，從而使得輸出接近于輸入。恒等函數雖然看上去不太有學習的意義，但是當我們為自編碼神經網絡加入某些限制，比如限定隱藏神經元的數量，我們就可以從輸入數據中發現一些有趣的結構。舉例來說，假設某個自編碼神經網絡的輸入是一張圖像（共100個像素）的像素灰度值，于是，其隱藏層中有50個隱藏神經元。注意，輸出也是100維的。由于只有50個隱藏神經元，我們迫使自編碼神經網絡去學習輸入數據的壓縮表示，也就是說，它必須從50維的隱藏神經元激活度向量中重構出100維的像素灰度值輸入。如果網絡的輸入數據是完全隨機的，比如每一個輸入都是一個跟其它特征完全無關的獨立同分布高斯隨機變量，那么這一壓縮表示將會非常難學習。但是如果輸入數據中隱含著一些特定的結構，比如某些輸入特征是彼此相關的，那么這一算法就可以發現輸入數據中的這些相關性。事實上，這一簡單的自編碼神經網絡通常可以學習出一個跟主元分析（PCA）結果非常相似的輸入數據的低維表示。

我們剛才的論述是基于隱藏神經元數量較小的假設。但是即使隱藏神經元的數量較大（可能比輸入像素的個數還要多），我們仍然通過給自編碼神經網絡施加一些其他的限制條件來發現輸入數據中的結構。具體來說，如果我們給隱藏神經元加入稀疏性限制，那么自編碼神經網絡即使在隱藏神經元數量較多的情況下仍然可以發現輸入數據中一些有趣的結構。

稀疏性可以被簡單地解釋如下。如果當神經元的輸出接近于1的時候我們認為它被激活，而輸出接近于0的時候認為它被抑制，那么使得神經元大部分的時間都是被抑制的限制則被稱作稀疏性限制。這里我們假設的神經元的激活函數是sigmoid函數。如果你使用tanh作為激活函數的話，當神經元輸出為-1的時候，我們認為神經元是被抑制的。

注意到表示隱藏神經元的激活度，但是這一表示方法中并未明確指出哪一個輸入帶來了這一激活度。所以我們將使用來表示在給定輸入為情況下，自編碼神經網絡隱藏神經元的激活度。進一步，讓

表示隱藏神經元的平均活躍度（在訓練集上取平均）。我們可以近似的加入一條限制

其中，是稀疏性參數，通常是一個接近于0的較小的值（比如）。換句話說，我們想要讓隱藏神經元的平均活躍度接近0.05。為了滿足這一條件，隱藏神經元的活躍度必須接近于0。

為了實現這一限制，我們將會在我們的優化目標函數中加入一個額外的懲罰因子，而這一懲罰因子將懲罰那些和有顯著不同的情況從而使得隱藏神經元的平均活躍度保持在較小范圍內。懲罰因子的具體形式有很多種合理的選擇，我們將會選擇以下這一種：

這里，是隱藏層中隱藏神經元的數量，而索引依次代表隱藏層中的每一個神經元。如果你對相對熵（KL divergence）比較熟悉，這一懲罰因子實際上是基于它的。于是懲罰因子也可以被表示為

其中是一個以為均值和一個以為均值的兩個伯努利隨機變量之間的相對熵。相對熵是一種標準的用來測量兩個分布之間差異的方法。（如果你沒有見過相對熵，不用擔心，所有你需要知道的內容都會被包含在這份筆記之中。）

這一懲罰因子有如下性質，當時，并且隨著與之間的差異增大而單調遞增。舉例來說，在下圖中，我們設定并且畫出了相對熵值隨著變化的變化。

我們可以看出，相對熵在時達到它的最小值0，而當靠近0或者1的時候，相對熵則變得非常大（其實是趨向于）。所以，最小化這一懲罰因子具有使得靠近的效果。現在，我們的總體代價函數可以表示為

其中如之前所定義，而控制稀疏性懲罰因子的權重。項則也（間接地）取決于，因為它是隱藏神經元的平均激活度，而隱藏層神經元的激活度取決于。

為了對相對熵進行導數計算，我們可以使用一個易于實現的技巧，這只需要在你的程序中稍作改動即可。具體來說，前面在后向傳播算法中計算第二層（）更新的時候我們已經計算了

現在我們將其換成

就可以了。

有一個需要注意的地方就是我們需要知道來計算這一項更新。所以在計算任何神經元的后向傳播之前，你需要對所有的訓練樣本計算一遍前向傳播，從而獲取平均激活度。如果你的訓練樣本可以小到被整個存到內存之中（對于編程作業來說，通常如此），你可以方便地在你所有的樣本上計算前向傳播并將得到的激活度存入內存并且計算平均激活度。然后你就可以使用事先計算好的激活度來對所有的訓練樣本進行后向傳播的計算。如果你的數據量太大，無法全部存入內存，你就可以掃過你的訓練樣本并計算一次前向傳播，然后將獲得的結果累積起來并計算平均激活度（當某一個前向傳播的結果中的激活度被用于計算平均激活度之后就可以將此結果刪除）。然后當你完成平均激活度的計算之后，你需要重新對每一個訓練樣本做一次前向傳播從而可以對其進行后向傳播的計算。對于后一種情況，你對每一個訓練樣本需要計算兩次前向傳播，所以在計算上的效率會稍低一些。

證明上面算法能達到梯度下降效果的完整推導過程不再本教程的范圍之內。不過如果你想要使用經過以上修改的后向傳播來實現自編碼神經網絡，那么你就會對目標函數做梯度下降。使用梯度驗證方法，你可以自己來驗證梯度下降算法是否正確。。

中英文對照

自編碼算法 Autoencoders

稀疏性 Sparsity

神經網絡 neural networks

監督學習 supervised learning

無監督學習 unsupervised learning

反向傳播算法 backpropagation

隱藏神經元 hidden units

像素灰度值 the pixel intensity value

獨立同分布 IID

主元分析 PCA

激活 active

抑制 inactive

激活函數 activation function

激活度 activation

平均活躍度 the average activation

稀疏性參數 sparsity parameter

懲罰因子 penalty term

相對熵 KL divergence

伯努利隨機變量 Bernoulli random variable

總體代價函數 overall cost function

后向傳播 backpropagation

前向傳播 forward pass

梯度下降 gradient descent

目標函數 the objective

梯度驗證方法 the derivative checking method

from: http://ufldl.stanford.edu/wiki/index.php/%E8%87%AA%E7%BC%96%E7%A0%81%E7%AE%97%E6%B3%95%E4%B8%8E%E7%A8%80%E7%96%8F%E6%80%A7

總結

以上是生活随笔為你收集整理的Stanford UFLDL教程自编码算法与稀疏性的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Stanford UFLDL教程梯度检
下一篇： Stanford UFLDL教程可视化

编程问答

Stanford UFLDL教程 自编码算法与稀疏性

自編碼算法與稀疏性

中英文對照

總結

Stanford UFLDL教程自编码算法与稀疏性