深度学习基础(十二)—— ReLU vs PReLU
從算法的命名上來說,PReLU 是對 ReLU 的進一步限制,事實上 PReLU(Parametric Rectified Linear Unit),也即 PReLU 是增加了參數修正的 ReLU。
在功能范疇上,ReLU 、 PReLU 和 sigmoid 、 tanh 函數一樣都是作為神經元的激勵函數(activation function)。
1. ReLU 與 PReLU
注意圖中通道的概念,不通的通道對應不同的 $$
如果 ai=0,那么 PReLU 退化為 ReLU;如果 ai 是一個很小的固定值(如ai=0.01),則 PReLU 退化為 Leaky ReLU(LReLU)。 有實驗證明,與 ReLU 相比,LReLU 對最終的結果幾乎沒什么影響。
2. 說明
PReLU 只增加了極少量的參數,也就意味著網絡的計算量以及過擬合的危險性都只增加了一點點。特別的,當不同 channels 使用相同的 ai 時,參數就更少了。
BP 更新 ai 時,采用的是帶動量的更新方式,如下圖:
Δai:=μΔai+??ε?ai
上式的兩個系數分別是動量和學習率。
需要特別注意的是:更新 ai 時不施加權重衰減(L2正則化),因為這會把 ai 很大程度上 push 到 0。事實上,即使不加正則化,試驗中 ai 也很少有超過1的。
整個論文,ai 被初始化為 0.25。
3. references
《Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification》
深度學習——PReLU激活
轉載于:https://www.cnblogs.com/mtcnn/p/9423605.html
總結
以上是生活随笔為你收集整理的深度学习基础(十二)—— ReLU vs PReLU的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 人性 - 社会 - 经济 - 科学
- 下一篇: [转] Envelop