深度学习基础(十二)—— ReLU vs PReLU
從算法的命名上來(lái)說(shuō),PReLU 是對(duì) ReLU 的進(jìn)一步限制,事實(shí)上 PReLU(Parametric Rectified Linear Unit),也即 PReLU 是增加了參數(shù)修正的 ReLU。
在功能范疇上,ReLU 、 PReLU 和 sigmoid 、 tanh 函數(shù)一樣都是作為神經(jīng)元的激勵(lì)函數(shù)(activation function)。
1. ReLU 與 PReLU
注意圖中通道的概念,不通的通道對(duì)應(yīng)不同的 $$
如果 ai=0,那么 PReLU 退化為 ReLU;如果 ai 是一個(gè)很小的固定值(如ai=0.01),則 PReLU 退化為 Leaky ReLU(LReLU)。 有實(shí)驗(yàn)證明,與 ReLU 相比,LReLU 對(duì)最終的結(jié)果幾乎沒(méi)什么影響。
2. 說(shuō)明
PReLU 只增加了極少量的參數(shù),也就意味著網(wǎng)絡(luò)的計(jì)算量以及過(guò)擬合的危險(xiǎn)性都只增加了一點(diǎn)點(diǎn)。特別的,當(dāng)不同 channels 使用相同的 ai 時(shí),參數(shù)就更少了。
BP 更新 ai 時(shí),采用的是帶動(dòng)量的更新方式,如下圖:
Δai:=μΔai+??ε?ai
上式的兩個(gè)系數(shù)分別是動(dòng)量和學(xué)習(xí)率。
需要特別注意的是:更新 ai 時(shí)不施加權(quán)重衰減(L2正則化),因?yàn)檫@會(huì)把 ai 很大程度上 push 到 0。事實(shí)上,即使不加正則化,試驗(yàn)中 ai 也很少有超過(guò)1的。
整個(gè)論文,ai 被初始化為 0.25。
3. references
《Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification》
深度學(xué)習(xí)——PReLU激活
轉(zhuǎn)載于:https://www.cnblogs.com/mtcnn/p/9423605.html
總結(jié)
以上是生活随笔為你收集整理的深度学习基础(十二)—— ReLU vs PReLU的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 人性 - 社会 - 经济 - 科学
- 下一篇: 树莓派+百度api实现人脸识别