日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

经典DL论文研读(part1)--Understanding the difficulty of training deep feedforward neural networks

發布時間:2023/12/19 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 经典DL论文研读(part1)--Understanding the difficulty of training deep feedforward neural networks 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

學習筆記,僅供參考,有錯必糾


文章目錄

    • Understanding the difficulty of training deep feedforward neural networks
      • Abstract
      • Deep Neural Networks
      • Experimental Setting and Datasets
        • Online Learning on an Infinite Dataset Shapeset-3*2
        • Finite Datasets
        • Experimental Setting
      • Effect of Activation Functions and Saturation During Training
        • Experiments with the Sigmoid
        • Experiments with the Hyperbolic tangent
      • Studying Gradients and their Propagation
        • 對比
      • Error Curves and Conclusions
      • 參考文獻(本博客)


Understanding the difficulty of training deep feedforward neural networks

Abstract


基于隨機初始化的標準梯度下降法在深度神經網絡中表現的不好.

由于隨機初始化的均值問題,sigmoid激活函數并不適合深度神經網絡,其top隱藏層(最接近輸出層的隱藏層)會出現飽和的狀態.

  • 飽和狀態

當x的數值處于兩個紅框框住的狀態時,sigmoid函數的梯度幾乎為0,參數的變化率非常小,此時就是處于sigmoid函數的【飽和狀態】.

注意,當x值為0時,函數接近于線性變化,函數只能做出近似線性的表達,則對非線性的情況不能很好的擬合,此時效果也不是很好. 當x的數值處于綠色框的范圍內時,會有較好的效果.

Deep Neural Networks

Experimental Setting and Datasets

在本章中,將介紹多個實驗中使用的數據集,以及實驗設置.

Online Learning on an Infinite Dataset Shapeset-3*2

該數據集可以隨機生成包含3種形狀(triangle, parallelogram, ellipse)的無限多的圖片,其中每張圖片中隨機包含2種圖形.

Finite Datasets

  • MNIST digits

MNIST數據集中包含50000張訓練圖片,10000張測試圖片,其中每張圖片為28*28像素的灰度圖.

  • CIFAR-10

CIFAR-10數據集中包含50000張訓練圖片,10000張測試圖片,其中每張圖片為32*32像素的彩色圖像. 這個數據集中包含10個種類的物體( airplane, automobile, bird, cat, deer, dog, frog, horse, ship, or truck).

  • Small-ImageNet

Small-ImageNet數據集中包含90000張訓練圖片,10000張測試圖片,其中每張圖片為37*37像素的灰度圖像. 這個數據集中包含10個種類的物體( eptiles, vehicles, birds, mammals, fish, furniture, instruments, tools, flowers and fruits).

Experimental Setting

  • 激活函數

本次實驗使用了3種激活函數: sigmoid函數, 雙曲正切函數以及softsign函數.

雙曲正切函數以及softsign函數的曲線圖如下所示. 直觀來看softsign函數更加平滑,非線性區域更廣.

  • 網絡層數

對于Shapeset-3*2數據集來說,神經網絡最好的深度為5層,但對于sigmoid激活函數來說,最好的層數為4層.

  • 初始化

偏置的初始化為0,每層權重WijW_{ij}Wij?的初始化為:

注意,n為前一個隱藏層神經元的個數.

Effect of Activation Functions and Saturation During Training

Experiments with the Sigmoid

以Sigmoid為激活函數有4個隱藏層的神經網絡的結果如下圖所示. 縱坐標為激活函數值,橫坐標為訓練的周期數,實線為激活函數均值. 可以看到第四層(top 層)激活函數的值很快下降到0附近,則此時模型處于飽和狀態,所有隱藏層的權值幾乎沒有調整. 直至訓練到100個周期之后,top層才擺脫飽和狀態,此時,其他隱藏層的權值才進行快速學習優化.

需要注意的是,基于Sigmoid激活函數的神經網絡如果層數為5,則無法擺脫飽和狀態.

文章認為出現這種飽和狀態的原因,是使用了傳統的隨機初始化. 緩解這種飽和狀態的方法是使用預訓練模型[1],具體方法為:首先使用無監督的方法得到BP網絡中的初始化權值,然后再對BP神經網絡進行微調,得到效果更好的模型.

Experiments with the Hyperbolic tangent

下圖中的上半部分使用的是雙曲正切函數,下半部分使用softsign函數.
基于雙曲正切激活函數模型的lay1很快進入飽和狀態,隨著訓練的增加,其他隱藏層也逐漸進入飽和狀態.
基于softsign函數模型的隱藏層在經過多次訓練后,都沒有進入飽和狀態.

下圖的上半部分使用的是雙曲正切函數,下半部分使用softsign函數.

基于雙曲正切激活函數模型的激活函數值大多處于0, 1, -1的狀態下. 這表明,這些隱藏層多處于飽和狀或者只能描繪線性的情況.

基于softsign函數模型的激活函數值,除了lay5的激活函數值處于0狀態下比較多,其他隱藏層的值都在[-0.8, -0.6] 或 [0.6, 0.8]的范圍內,這說明基于該激活函數的隱藏層沒有出現飽和狀態,且模型具有較好的學習性能.

Studying Gradients and their Propagation

本文提出了一種新的初始化方法,即標準初始化:

對比

  • 激活函數值

下圖中上半部分使用的是普通初始化,下半部分使用的是新的標準化方法. 可以看到,普通初始化方法得到的激活函數值多在0附近,而新的初始化方法所產生的激活函數值分布較廣,則對模型的學習訓練有較好的結果.

  • 梯度

Error Curves and Conclusions

結論:

參考文獻(本博客)

[1]

總結

以上是生活随笔為你收集整理的经典DL论文研读(part1)--Understanding the difficulty of training deep feedforward neural networks的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。