當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

深层神经网络难以训练的原因

發布時間：2023/12/19 编程问答 46 豆豆

生活随笔收集整理的這篇文章主要介紹了深层神经网络难以训练的原因小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

梯度消失

梯度爆炸

權重矩陣的退化導致模型的有效自由度減少

解決梯度消失的方法

解決梯度爆炸的方法

梯度消失：前面隱藏層的學習速度顯著低于后面隱藏層

梯度消失的根本原因：

梯度爆炸的根本原因：當，前面的網絡層比后面的網絡層梯度變化更快。

參數空間中學習的退化速度減慢，導致減少了模型的有效維數；有效自由度減少，隨著模型深度的增加，退化速度會越來越快，網絡會變得敏感。

學習率：大：訓練速度加快，精度降低；

? ? ? ? ? ? 小：精度增加，訓練速度減慢

退化學習率：剛開始使用大的學習率加快訓練速度，后減小學習率提高精度

梯度消失和梯度爆炸問題都是因為網絡太深，網絡權值更新不穩定造成的，本質上是因為梯度反向傳播中的連乘效應。

1.用ReLU、Leaky-ReLU、P-ReLU、R-ReLU、Maxout等替代sigmoid函數。

2.用Batch Normalization。

3.LSTM的結構設計也可以改善RNN中的梯度消失問題。

1、預訓練+微調

2、梯度剪切、權重正則

3、使用不同的激活函數

4、使用殘差結構，為模型增加了一個shortcut，這種shortcut可以動態的調整模型的復雜度，類似于LSTM中的門結構。

5、用Batch Normalization。

最后如果轉載，麻煩留個本文的鏈接，因為如果讀者或我自己發現文章有錯誤，我會在這里更正，留個本文的鏈接，防止我暫時的疏漏耽誤了他人寶貴的時間。

以上是生活随笔為你收集整理的深层神经网络难以训练的原因的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。