谷歌大脑自门控激活函数Swish
Swish 激活函數(shù)的數(shù)學(xué)公式非常的簡單,即 f(x) = x * sigmoid(x) 。根據(jù)谷歌大腦的論文,該激活函數(shù)的性能比 ReLU 激活函數(shù)的性能要好很多。
目前使用最廣泛的激活函數(shù)是 ReLU。
? ? 本論文中,我們提出了一種新型激活函數(shù) Swish,Swish的數(shù)學(xué)表達為:f(x) = x * sigmoid(x) 。
? ? 其中σ(x) = 1/(1 + exp(?x)) 是 Sigmoid 函數(shù)。 Swish 函數(shù)的幾何表示如下:
? ? 和 ReLU 一樣,Swish 無上界有下界。? ? 與 ReLU 不同的是,Swish 是平滑且非單調(diào)的函數(shù)。
? ? Swish 的導(dǎo)數(shù)是
? ? Swish 的一階導(dǎo)和二階導(dǎo)如圖 2 所示。輸入低于 1.25 時,導(dǎo)數(shù)小于 1。
? ? Swish 的設(shè)計受到 LSTM 和 highway network 中使用 sigmoid 函數(shù)進行門控的啟發(fā)。我們使用同樣的值進行門控來簡化門控機制,稱為自門控(self-gating)。自門控的優(yōu)勢是它僅需要一個簡單的標量輸入,而正常的門控需要多個標量輸入。該特性令使用自門控的激活函數(shù)如 Swish 能夠輕松替換以單個標量作為輸入的激活函數(shù)(如 ReLU),無需改變參數(shù)的隱藏容量或數(shù)量。
? ? 在 TensorFlow 等大多數(shù)深度學(xué)習(xí)庫中只需更改一行代碼即可實現(xiàn) Swish 函數(shù)。需要注意的是,如果使用 BN,應(yīng)設(shè)置縮放參數(shù)(scale parameter)。由于 ReLU 函數(shù)是分段線性函數(shù),一些高級別的庫默認關(guān)閉縮放參數(shù),但是該設(shè)置不適用于 Swish。
? ? 一句話:Swish 是一種新型激活函數(shù),公式為: f(x) = x · sigmoid(x)。Swish 具備無上界有下界、平滑、非單調(diào)的特性。
總結(jié)
以上是生活随笔為你收集整理的谷歌大脑自门控激活函数Swish的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: sklearn机器学习常用数据处理总结
- 下一篇: 避免在循环体中声明创建对象