當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

经典DL论文研读(part1)--Understanding the difficulty of training deep feedforward neural networks

發布時間：2023/12/19 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了经典DL论文研读(part1)--Understanding the difficulty of training deep feedforward neural networks 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

學習筆記，僅供參考，有錯必糾

文章目錄

- Understanding the difficulty of training deep feedforward neural networks
- - Abstract
  - Deep Neural Networks
  - Experimental Setting and Datasets
  - - Online Learning on an Infinite Dataset Shapeset-3*2
    - Finite Datasets
    - Experimental Setting
  - Effect of Activation Functions and Saturation During Training
  - - Experiments with the Sigmoid
    - Experiments with the Hyperbolic tangent
  - Studying Gradients and their Propagation
  - - 對比
  - Error Curves and Conclusions
  - 參考文獻(本博客)

Understanding the difficulty of training deep feedforward neural networks

Abstract

基于隨機初始化的標準梯度下降法在深度神經網絡中表現的不好.

由于隨機初始化的均值問題，sigmoid激活函數并不適合深度神經網絡，其top隱藏層(最接近輸出層的隱藏層)會出現飽和的狀態.

飽和狀態

當x的數值處于兩個紅框框住的狀態時，sigmoid函數的梯度幾乎為0，參數的變化率非常小，此時就是處于sigmoid函數的【飽和狀態】.

注意，當x值為0時，函數接近于線性變化，函數只能做出近似線性的表達，則對非線性的情況不能很好的擬合，此時效果也不是很好. 當x的數值處于綠色框的范圍內時，會有較好的效果.

Deep Neural Networks

略

Experimental Setting and Datasets

在本章中，將介紹多個實驗中使用的數據集，以及實驗設置.

Online Learning on an Infinite Dataset Shapeset-3*2

該數據集可以隨機生成包含3種形狀(triangle, parallelogram, ellipse)的無限多的圖片，其中每張圖片中隨機包含2種圖形.

Finite Datasets

MNIST digits

MNIST數據集中包含50000張訓練圖片，10000張測試圖片，其中每張圖片為28*28像素的灰度圖.

CIFAR-10

CIFAR-10數據集中包含50000張訓練圖片，10000張測試圖片，其中每張圖片為32*32像素的彩色圖像. 這個數據集中包含10個種類的物體( airplane, automobile, bird, cat, deer, dog, frog, horse, ship, or truck).

Small-ImageNet

Small-ImageNet數據集中包含90000張訓練圖片，10000張測試圖片，其中每張圖片為37*37像素的灰度圖像. 這個數據集中包含10個種類的物體( eptiles, vehicles, birds, mammals, fish, furniture, instruments, tools, flowers and fruits).

Experimental Setting

激活函數

本次實驗使用了3種激活函數： sigmoid函數, 雙曲正切函數以及softsign函數.

雙曲正切函數以及softsign函數的曲線圖如下所示. 直觀來看softsign函數更加平滑，非線性區域更廣.

網絡層數

對于Shapeset-3*2數據集來說，神經網絡最好的深度為5層，但對于sigmoid激活函數來說，最好的層數為4層.

初始化

偏置的初始化為0，每層權重 $W_{ij}$ 的初始化為：

注意，n為前一個隱藏層神經元的個數.

Effect of Activation Functions and Saturation During Training

Experiments with the Sigmoid

以Sigmoid為激活函數有4個隱藏層的神經網絡的結果如下圖所示. 縱坐標為激活函數值，橫坐標為訓練的周期數，實線為激活函數均值. 可以看到第四層(top 層)激活函數的值很快下降到0附近，則此時模型處于飽和狀態，所有隱藏層的權值幾乎沒有調整. 直至訓練到100個周期之后，top層才擺脫飽和狀態，此時，其他隱藏層的權值才進行快速學習優化.

需要注意的是，基于Sigmoid激活函數的神經網絡如果層數為5，則無法擺脫飽和狀態.

文章認為出現這種飽和狀態的原因，是使用了傳統的隨機初始化. 緩解這種飽和狀態的方法是使用預訓練模型[1]，具體方法為：首先使用無監督的方法得到BP網絡中的初始化權值，然后再對BP神經網絡進行微調，得到效果更好的模型.

Experiments with the Hyperbolic tangent

下圖中的上半部分使用的是雙曲正切函數，下半部分使用softsign函數.
基于雙曲正切激活函數模型的lay1很快進入飽和狀態，隨著訓練的增加，其他隱藏層也逐漸進入飽和狀態.
基于softsign函數模型的隱藏層在經過多次訓練后，都沒有進入飽和狀態.

下圖的上半部分使用的是雙曲正切函數，下半部分使用softsign函數.

基于雙曲正切激活函數模型的激活函數值大多處于0, 1, -1的狀態下. 這表明，這些隱藏層多處于飽和狀或者只能描繪線性的情況.

基于softsign函數模型的激活函數值，除了lay5的激活函數值處于0狀態下比較多，其他隱藏層的值都在[-0.8, -0.6] 或 [0.6, 0.8]的范圍內，這說明基于該激活函數的隱藏層沒有出現飽和狀態，且模型具有較好的學習性能.

Studying Gradients and their Propagation

本文提出了一種新的初始化方法，即標準初始化：

對比

激活函數值

下圖中上半部分使用的是普通初始化，下半部分使用的是新的標準化方法. 可以看到，普通初始化方法得到的激活函數值多在0附近，而新的初始化方法所產生的激活函數值分布較廣，則對模型的學習訓練有較好的結果.

梯度

Error Curves and Conclusions

結論：

參考文獻(本博客)

[1]

總結

以上是生活随笔為你收集整理的经典DL论文研读(part1)--Understanding the difficulty of training deep feedforward neural networks的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：矩阵的秩及矩阵的广义逆
下一篇：经典DL论文研读(part2)--Dee