深层神经网络难以训练的原因
目錄
梯度消失
梯度爆炸
權重矩陣的退化導致模型的有效自由度減少
解決梯度消失的方法
解決梯度爆炸的方法
梯度消失
梯度消失:前面隱藏層的學習速度顯著低于后面隱藏層
梯度消失的根本原因:
梯度爆炸
梯度爆炸的根本原因:當,前面的網絡層比后面的網絡層梯度變化更快。
權重矩陣的退化導致模型的有效自由度減少
參數空間中學習的退化速度減慢,導致減少了模型的有效維數;有效自由度減少,隨著模型深度的增加,退化速度會越來越快,網絡會變得敏感。
學習率:大:訓練速度加快,精度降低;
? ? ? ? ? ? 小:精度增加,訓練速度減慢
退化學習率:剛開始使用大的學習率加快訓練速度,后減小學習率提高精度
解決梯度消失的方法
梯度消失和梯度爆炸問題都是因為網絡太深,網絡權值更新不穩定造成的,本質上是因為梯度反向傳播中的連乘效應。
1.用ReLU、Leaky-ReLU、P-ReLU、R-ReLU、Maxout等替代sigmoid函數。
2.用Batch Normalization。
3.LSTM的結構設計也可以改善RNN中的梯度消失問題。
解決梯度爆炸的方法
1、預訓練+微調
2、梯度剪切、權重正則
3、使用不同的激活函數
4、使用殘差結構,為模型增加了一個shortcut,這種shortcut可以動態的調整模型的復雜度,類似于LSTM中的門結構。
5、用Batch Normalization。
?
最后如果轉載,麻煩留個本文的鏈接,因為如果讀者或我自己發現文章有錯誤,我會在這里更正,留個本文的鏈接,防止我暫時的疏漏耽誤了他人寶貴的時間。
?
?
?
?
?
?
?
?
?
?
總結
以上是生活随笔為你收集整理的深层神经网络难以训练的原因的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 女生网名大全110个
- 下一篇: 【线性回归】面向新手的基础知识