日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

激活函数(ReLU, Swish, Maxout)

發(fā)布時(shí)間:2024/8/26 综合教程 59 生活家
生活随笔 收集整理的這篇文章主要介紹了 激活函数(ReLU, Swish, Maxout) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

神經(jīng)網(wǎng)絡(luò)中使用激活函數(shù)來加入非線性因素,提高模型的表達(dá)能力。

ReLU(Rectified Linear Unit,修正線性單元)

形式如下:

[egin{equation}
f(x)=
egin{cases}
0, & {xleq 0} \\
x, & {xgt 0}
end{cases}
end{equation}
]

ReLU公式近似推導(dǎo)::

[egin{align}
f(x) &=sum_{i=1}^{inf}sigma(x-i+0.5) & ext{(stepped sigmoid)} \\
&approxlog(1+e^x) & ext{(softplus function)} \\
&approxmax(0,x+N(0,1)) & ext{(ReL function)} \\
其中sigma(z) &={1over 1+e^{-z}} & ext{(sigmoid)}
end{align}
]

下面解釋上述公式中的softplus,Noisy ReLU.

softplus函數(shù)與ReLU函數(shù)接近,但比較平滑, 同ReLU一樣是單邊抑制,有寬廣的接受域(0,+inf), 但是由于指數(shù)運(yùn)算,對(duì)數(shù)運(yùn)算計(jì)算量大的原因,而不太被人使用.并且從一些人的使用經(jīng)驗(yàn)來看(Glorot et al.(2011a)),效果也并不比ReLU好.
softplus的導(dǎo)數(shù)恰好是sigmoid函數(shù).softplus 函數(shù)圖像:

Noisy ReLU[1]
ReLU可以被擴(kuò)展以包括高斯噪聲(Gaussian noise):
(f(x)=max(0,x+Y), Ysim N(0,sigma(x)))
Noisy ReLU 在受限玻爾茲曼機(jī)解決計(jì)算機(jī)視覺任務(wù)中得到應(yīng)用.

ReLU上界設(shè)置: ReLU相比sigmoid和tanh的一個(gè)缺點(diǎn)是沒有對(duì)上界設(shè)限.在實(shí)際使用中,可以設(shè)置一個(gè)上限,如ReLU6經(jīng)驗(yàn)函數(shù): (f(x)=min(6,max(0,x))). 參考這個(gè)上限的來源論文: Convolutional Deep Belief Networks on CIFAR-10. A. Krizhevsky

ReLU的稀疏性(摘自這里):

當(dāng)前,深度學(xué)習(xí)一個(gè)明確的目標(biāo)是從數(shù)據(jù)變量中解離出關(guān)鍵因子。原始數(shù)據(jù)(以自然數(shù)據(jù)為主)中通常纏繞著高度密集的特征。然而,如果能夠解開特征間纏繞的復(fù)雜關(guān)系,轉(zhuǎn)換為稀疏特征,那么特征就有了魯棒性(去掉了無關(guān)的噪聲)。稀疏特征并不需要網(wǎng)絡(luò)具有很強(qiáng)的處理線性不可分機(jī)制。那么在深度網(wǎng)絡(luò)中,對(duì)非線性的依賴程度就可以縮一縮。一旦神經(jīng)元與神經(jīng)元之間改為線性激活,網(wǎng)絡(luò)的非線性部分僅僅來自于神經(jīng)元部分選擇性激活。
對(duì)比大腦工作的95%稀疏性來看,現(xiàn)有的計(jì)算神經(jīng)網(wǎng)絡(luò)和生物神經(jīng)網(wǎng)絡(luò)還是有很大差距的。慶幸的是,ReLu只有負(fù)值才會(huì)被稀疏掉,即引入的稀疏性是可以訓(xùn)練調(diào)節(jié)的,是動(dòng)態(tài)變化的。只要進(jìn)行梯度訓(xùn)練,網(wǎng)絡(luò)可以向誤差減少的方向,自動(dòng)調(diào)控稀疏比率,保證激活鏈上存在著合理數(shù)量的非零值。

ReLU 缺點(diǎn)

壞死: ReLU 強(qiáng)制的稀疏處理會(huì)減少模型的有效容量(即特征屏蔽太多,導(dǎo)致模型無法學(xué)習(xí)到有效特征)。由于ReLU在x < 0時(shí)梯度為0,這樣就導(dǎo)致負(fù)的梯度在這個(gè)ReLU被置零,而且這個(gè)神經(jīng)元有可能再也不會(huì)被任何數(shù)據(jù)激活,稱為神經(jīng)元“壞死”。
無負(fù)值: ReLU和sigmoid的一個(gè)相同點(diǎn)是結(jié)果是正值,沒有負(fù)值.

ReLU變種

Leaky ReLU

當(dāng)(x<0)時(shí),(f(x)=alpha x),其中(alpha)非常小,這樣可以避免在(x<0)時(shí),不能夠?qū)W習(xí)的情況:

[f(x)=max(alpha x,x)
]

稱為Parametric Rectifier(PReLU),將 (alpha) 作為可學(xué)習(xí)的參數(shù).

當(dāng) (alpha) 從高斯分布中隨機(jī)產(chǎn)生時(shí)稱為Random Rectifier(RReLU)。

當(dāng)固定為(alpha=0.01)時(shí),是Leaky ReLU

優(yōu)點(diǎn):

不會(huì)過擬合(saturate)
計(jì)算簡(jiǎn)單有效
比sigmoid/tanh收斂快

指數(shù)線性單元ELU

[egin{equation}
f(x)=
egin{cases}
alpha(e^x-1), & ext{$xleq 0$} \
x, & ext{$xgt 0$}
end{cases}
end{equation}
]

[egin{equation}
f'(x)=
egin{cases}
f(x)+alpha, & ext{$xleq 0$} \
1, & ext{$xgt 0$}
end{cases}
end{equation}
]

exponential linear unit, 該激活函數(shù)由Djork等人提出,被證實(shí)有較高的噪聲魯棒性,同時(shí)能夠使得使得神經(jīng)元
的平均激活均值趨近為 0,同時(shí)對(duì)噪聲更具有魯棒性。由于需要計(jì)算指數(shù),計(jì)算量較大。
ReLU family:

Leaky ReLU (alpha)是固定的;PReLU的(alpha)不是固定的,通過訓(xùn)練得到;RReLU的(alpha)是從一個(gè)高斯分布中隨機(jī)產(chǎn)生,并且在測(cè)試時(shí)為固定值,與Noisy ReLU類似(但是區(qū)間正好相反)。

ReLU系列對(duì)比:

SELU

論文: 自歸一化神經(jīng)網(wǎng)絡(luò)(Self-Normalizing Neural Networks)中提出只需要把激活函數(shù)換成SELU就能使得輸入在經(jīng)過一定層數(shù)之后變成固定的分布. 參考對(duì)這篇論文的討論.

SELU是給ELU乘上系數(shù) (lambda), 即 (m{SELU}(x)=lambdacdot m{ELU}(x))

[f(x)=lambda
egin{cases}
alpha(e^x-1) & x le 0 \
x & x>0
end{cases}
]

Swish

paper Searching for Activation functions(Prajit Ramachandran,Google Brain 2017)

[f(x) = x · ext{sigmoid}(βx)
]

β是個(gè)常數(shù)或可訓(xùn)練的參數(shù).Swish 具備無上界有下界、平滑、非單調(diào)的特性。
Swish 在深層模型上的效果優(yōu)于 ReLU。例如,僅僅使用 Swish 單元替換 ReLU 就能把 Mobile NASNetA 在 ImageNet 上的 top-1 分類準(zhǔn)確率提高 0.9%,Inception-ResNet-v 的分類準(zhǔn)確率提高 0.6%。

導(dǎo)數(shù):

當(dāng)β = 0時(shí),Swish變?yōu)榫€性函數(shù)(f(x) ={xover 2}).
β → ∞, $ σ(x) = (1 + exp(?x))^{?1} $為0或1. Swish變?yōu)镽eLU: f(x)=2max(0,x)
所以Swish函數(shù)可以看做是介于線性函數(shù)與ReLU函數(shù)之間的平滑函數(shù).

工程實(shí)現(xiàn):
在TensorFlow框架中只需一行代碼: x * tf.sigmoid(beta * x)tf.nn.swish(x).
在Caffe中使用Scale+Sigmoid+EltWise(PROD)來實(shí)現(xiàn)或者合并成一個(gè)層. 代碼參考.

GELU

GELU(高斯誤差線性單元)是一個(gè)非初等函數(shù)形式的激活函數(shù),是RELU的變種。由16年論文 Gaussian Error Linear Units (GELUs) 提出,隨后被GPT-2、BERT、RoBERTa、ALBERT 等NLP模型所采用。論文中不僅提出了GELU的精確形式,還給出了兩個(gè)初等函數(shù)的近似形式。函數(shù)曲線如下:

RELU及其變種與Dropout從兩個(gè)獨(dú)立的方面來決定網(wǎng)絡(luò)的輸出,有沒有什么比較中庸溫和的方法把兩者合二為一呢?在網(wǎng)絡(luò)正則化方面,Dropout將神經(jīng)單元輸出隨機(jī)置0(乘0),Zoneout將RNN的單元隨機(jī)跳過(乘1)。兩者均是將輸出乘上了服從伯努利分布(二項(xiàng)分布)的變量m ~ Bernoulli(p),其中p是指定的確定的參數(shù),表示取1的概率。論文中希望p能夠隨著輸入x的不同而不同,在x較小時(shí)以較大概率將其置0。 由于神經(jīng)元的輸入通常服從正態(tài)分布,尤其是在加入了Batch Normalization的網(wǎng)絡(luò)中,因此令p等于正態(tài)分布的累積分布函數(shù)即可滿足。正態(tài)分布的概率密度函數(shù):(f(x)={frac {1}{sigma {sqrt {2pi }}}};e^{-{frac {left(x-mu ight)^{2}}{2sigma ^{2}}}}),累積分布函數(shù):(F(x) = frac{1}{sigmasqrt{2pi}} int_{-infty}^x exp left( -frac{(t - mu)^2}{2sigma^2} ight)\, dt). 正態(tài)分布的累積分布函數(shù)曲線與sigmoid曲線相似。

假設(shè)輸入服從標(biāo)準(zhǔn)正態(tài)分布:(Xsim mathcal N(0,1)),標(biāo)準(zhǔn)正態(tài)分布的累積分布函數(shù)習(xí)慣上記為(Phi),(Phi(x)=P(Xle x)).

然而激活函數(shù)由于在訓(xùn)練和測(cè)試時(shí)使用方式完全相同,所以是需要有確定性的輸出,這點(diǎn)與Dropout不同(Dropout在測(cè)試時(shí)并不隨機(jī)置0)。由于概率分布的數(shù)學(xué)期望是確定值,因此改為求輸出的期望:(E[mx]=xE[m]=xPhi(x)),即對(duì)輸入乘上伯努利分布的期望值(p=Phi(x))

[egin{align}
Phi(x) =& frac{1}{sqrt{2pi}} int_{-infty}^x expleft(-frac{t^2}{2}ight) \, dt \
=& {1over 2} + frac{1}{sqrt{2pi}} int_0^x expleft(-frac{t^2}{2}ight) \, dt ag{正態(tài)分布曲線下面積為1,一半則為0.5} \
=& {1over 2}left(1 + frac{2}{sqrt{pi}} int_0^x expleft(-({tover sqrt 2})^2ight) \, {dtover sqrt 2}ight) \
=& {1over 2}left(1 + frac{2}{sqrt{pi}} int_0^{xoversqrt 2} expleft(-z^2ight) \, dzight) \
=& {1over 2}left(1+m{erf}left({xover sqrt 2}ight)ight)
end{align}
]

其中的變換包含這個(gè)等式: ({1over n}int_0^x f(t/n)dt=int_0^{x/n}f(t)dt),將x看作一個(gè)固定值,則不難理解。

在數(shù)學(xué)中,誤差函數(shù)(也稱之為高斯誤差函數(shù))定義如下:

[{operatorname {erf} (x)={frac {1}{sqrt {pi }}}int _{-x}^{x}e^{-t^{2}}\,mathrm ozvdkddzhkzd t={frac {2}{sqrt {pi }}}int _{0}^{x}e^{-t^{2}}\,mathrm ozvdkddzhkzd t}
]

erf(x) 與 tanh(x) 比較接近,與 (2left(sigma(x)-frac{1}{2}ight)) 也有相似的曲線,但是相對(duì)差別較大一些。在代碼實(shí)現(xiàn)中可以用近似函數(shù)來擬合erf(x)。論文給出的兩個(gè)近似如下:

[egin{align}
xPhi(x) &approx xsigma(1.702 x) \
xPhi(x) &approx frac{1}{2} x left[1 + anhleft(sqrt{frac{2}{pi}}left(x + 0.044715 x^3ight)ight)ight]
end{align}
]

不過很多框架已經(jīng)有精確的erf計(jì)算函數(shù)了,可以直接使用,參考代碼如下:

# GPT-2 的 GELU 實(shí)現(xiàn)
def gelu(x):
    return 0.5*x*(1+tf.tanh(np.sqrt(2/np.pi)*(x+0.044715*tf.pow(x, 3))))
# BERT 的 GELU 實(shí)現(xiàn)
def gelu(input_tensor):
    cdf = 0.5 * (1.0 + tf.erf(input_tensor / tf.sqrt(2.0)))
    return input_tesnsor*cdf

GELU vs Swish

GELU 與 Swish 激活函數(shù)(x · σ(βx))的函數(shù)形式和性質(zhì)非常相像,一個(gè)是固定系數(shù) 1.702,另一個(gè)是可變系數(shù) β(可以是可訓(xùn)練的參數(shù),也可以是通過搜索來確定的常數(shù)),兩者的實(shí)際應(yīng)用表現(xiàn)也相差不大。

參考:

GELU的兩個(gè)初等函數(shù)近似是怎么來的
GELU activation
What is GELU activation?

Maxout

論文Maxout Networks(Goodfellow,ICML2013)

Maxout可以看做是在深度學(xué)習(xí)網(wǎng)絡(luò)中加入一層激活函數(shù)層,包含一個(gè)參數(shù)k.這一層相比ReLU,sigmoid等,其特殊之處在于增加了k個(gè)神經(jīng)元,然后輸出激活值最大的值.

我們常見的隱含層節(jié)點(diǎn)輸出:

[h_i(x)= ext{sigmoid}(x^TW_{…i}+b_i)
]

而在Maxout網(wǎng)絡(luò)中,其隱含層節(jié)點(diǎn)的輸出表達(dá)式為:

[h_i(x)=max_{jin[1,k]}z_{ij}
]

其中(z_{ij}=x^TW_{…ij}+b_{ij}, Win R^{d imes m imes k})

以如下最簡(jiǎn)單的多層感知器(MLP)為例:


圖片來源:slides

假設(shè)網(wǎng)絡(luò)第i層有2個(gè)神經(jīng)元x1、x2,第i+1層的神經(jīng)元個(gè)數(shù)為1個(gè).原本只有一層參數(shù),將ReLU或sigmoid等激活函數(shù)替換掉,引入Maxout,將變成兩層參數(shù),參數(shù)個(gè)數(shù)增為k倍.

優(yōu)點(diǎn):

Maxout的擬合能力非常強(qiáng),可以擬合任意的凸函數(shù)。
Maxout具有ReLU的所有優(yōu)點(diǎn),線性、不飽和性。
同時(shí)沒有ReLU的一些缺點(diǎn)。如:神經(jīng)元的死亡。

缺點(diǎn):
從上面的激活函數(shù)公式中可以看出,每個(gè)神經(jīng)元中有兩組(w,b)參數(shù),那么參數(shù)量就增加了一倍,這就導(dǎo)致了整體參數(shù)的數(shù)量激增。

Maxout激活函數(shù)

與常規(guī)激活函數(shù)不同的是,它是一個(gè)可學(xué)習(xí)的分段線性函數(shù).

然而任何一個(gè)凸函數(shù),都可以由線性分段函數(shù)進(jìn)行逼近近似。其實(shí)我們可以把以前所學(xué)到的激活函數(shù):ReLU、abs激活函數(shù),看成是分成兩段的線性函數(shù),如下示意圖所示:

實(shí)驗(yàn)結(jié)果表明Maxout與Dropout組合使用可以發(fā)揮比較好的效果。

那么,前邊的兩種ReLU便是兩種Maxout,函數(shù)圖像為兩條直線的拼接,(f(x)=max(w_1^Tx+b_1,w_2^Tx+b_2)).

sigmoid & tanh

sigmoid/logistic 激活函數(shù):

[sigma(x) ={1over 1+e^{-x}}
]

tanh 函數(shù)是sigmoid函數(shù)的一種變體,以0點(diǎn)為中心。取值范圍為 [-1,1] ,而不是sigmoid函數(shù)的 [0,1] 。

[ anh(x) ={e^x-e^{-x}over e^x+e^{-x}}
]

tanh 是對(duì) sigmoid 的平移和收縮: ( anh left( x ight) = 2 cdot sigma left( 2 x ight) - 1).
你可能會(huì)想平移使得曲線以0點(diǎn)為中心,那么為什么還要收縮呢? 如果不拉伸或收縮得到 (f(x)={e^x-1over e^x+1}) 不行嗎? 我猜想是因?yàn)?tanh 更加著名吧。

那么 tanh 這個(gè)雙曲正切函數(shù)與三角函數(shù) tan 之間是什么關(guān)系呢?

在數(shù)學(xué)中,雙曲函數(shù)是一類與常見的三角函數(shù)(也叫圓函數(shù))類似的函數(shù)。最基本的雙曲函數(shù)是雙曲正弦函數(shù) sinh 和雙曲余弦函數(shù) cosh ,從它們可以導(dǎo)出雙曲正切函數(shù) tanh 等,其推導(dǎo)也類似于三角函數(shù)的推導(dǎo)。[2]
根據(jù)歐拉公式: (e^{ix} = cos x + icdotsin x) (其中i是虛數(shù)(sqrt{-1})) 有[3],

[e^{-ix} = cos x - icdotsin x \
sin x=(e^{ix} - e^{-ix})/(2i) \
cos x=(e^{ix} + e^{-ix})/2 \
an x= anh(ix)/i \
anh(ix)=i an x
]

hard tanh 限界: g(z) = max(-1, min(1,z))

sigmoid & tanh 函數(shù)圖像如下:

sigmoid作激活函數(shù)的優(yōu)缺點(diǎn)

歷史上很流行(Historically popular since they have nice interpretation as a saturating “firing rate” of a neuron),梯度計(jì)算較為方便:

[
ablasigma =
{e^{-x}over(1+e^{-x})^2}=({1+e^{-x}-1over 1+e^{-x}})({1over 1+e^{-x}})=
sigma(x)(1-sigma(x))
]

優(yōu)勢(shì)是能夠控制數(shù)值的幅度,在深層網(wǎng)絡(luò)中可以保持?jǐn)?shù)據(jù)幅度不會(huì)出現(xiàn)大的變化;而ReLU不會(huì)對(duì)數(shù)據(jù)的幅度做約束.

存在三個(gè)問題:

飽和的神經(jīng)元會(huì)"殺死"梯度,指離中心點(diǎn)較遠(yuǎn)的x處的導(dǎo)數(shù)接近于0,停止反向傳播的學(xué)習(xí)過程.
sigmoid的輸出不是以0為中心,而是0.5,這樣在求權(quán)重w的梯度時(shí),梯度總是正或負(fù)的.
指數(shù)計(jì)算耗時(shí)

為什么tanh相比sigmoid收斂更快:

梯度消失問題程度
( anh'( x ) = 1- anh( x )^2 in (0,1))
( ext{sigmoid: } s'(x)=s(x) imes(1-s(x))in(0,1/4))
可以看出tanh(x)的梯度消失問題比sigmoid要輕.梯度如果過早消失,收斂速度較慢.
以零為中心的影響
如果當(dāng)前參數(shù)(w0,w1)的最佳優(yōu)化方向是(+d0, -d1),則根據(jù)反向傳播計(jì)算公式,我們希望 x0 和 x1 符號(hào)相反。但是如果上一級(jí)神經(jīng)元采用 Sigmoid 函數(shù)作為激活函數(shù),sigmoid不以0為中心,輸出值恒為正,那么我們無法進(jìn)行最快的參數(shù)更新,而是走 Z 字形逼近最優(yōu)解。[4]

激活函數(shù)的作用

加入非線性因素
充分組合特征

下面說明一下為什么有組合特征的作用.

一般函數(shù)都可以通過泰勒展開式來近似計(jì)算, 如sigmoid激活函數(shù)中的指數(shù)項(xiàng)可以通過如下的泰勒展開來近似計(jì)算:

[e^z=1+{1over 1!}z+{1over 2!}z^2+{1over 3!}z^3+o(z^3)
]

其中有平方項(xiàng),立方項(xiàng)及更更高項(xiàng), 而 (z=wx+b), 因此可以看作是輸入特征 x 的組合. 以前需要由領(lǐng)域?qū)<抑R(shí)進(jìn)行特征組合,現(xiàn)在激活函數(shù)能起到一種類似特征組合的作用. (思想來源: 微博@算法組)

為什么ReLU,Maxout等能夠提供網(wǎng)絡(luò)的非線性建模能力?它們看起來是分段線性函數(shù),然而并不滿足完整的線性要求:加法f(x+y)=f(x)+f(y)和乘法f(ax)=a×f(x)或者寫作(f(alpha x_1+eta x_2)=alpha f(x_1)+eta f(x_2))。非線性意味著得到的輸出不可能由輸入的線性組合重新得到(重現(xiàn))。假如網(wǎng)絡(luò)中不使用非線性激活函數(shù),那么這個(gè)網(wǎng)絡(luò)可以被一個(gè)單層感知器代替得到相同的輸出,因?yàn)榫€性層加起來后還是線性的,可以被另一個(gè)線性函數(shù)替代。

梯度消失與梯度爆炸

梯度消失/爆炸原因及解決辦法

原因,淺層的梯度計(jì)算需要后面各層的權(quán)重及激活函數(shù)導(dǎo)數(shù)的乘積,因此可能出現(xiàn)前層比后層的學(xué)習(xí)率小(vanishing gradient)或大(exploding)的問題,所以具有不穩(wěn)定性.那么如何解決呢?

需要考慮幾個(gè)方面:

權(quán)重初始化
使用合適的方式初始化權(quán)重, 如ReLU使用MSRA的初始化方式, tanh使用xavier初始化方式.
激活函數(shù)選擇
激活函數(shù)要選擇ReLU等梯度累乘穩(wěn)定的.
學(xué)習(xí)率
一種訓(xùn)練優(yōu)化方式是對(duì)輸入做白化操作(包括正規(guī)化和去相關(guān)), 目的是可以選擇更大的學(xué)習(xí)率. 現(xiàn)代深度學(xué)習(xí)網(wǎng)絡(luò)中常使用Batch Normalization(包括正規(guī)化步驟,但不含去相關(guān)). (All you need is a good init. If you can't find the good init, use Batch Normalization.)

由于梯度的公式包含每層激勵(lì)的導(dǎo)數(shù)以及權(quán)重的乘積,因此讓中間層的乘積約等于1即可.但是sigmoid這種函數(shù)的導(dǎo)數(shù)值又與權(quán)重有關(guān)系(最大值1/4,兩邊對(duì)稱下降),所以含有sigmoid的神經(jīng)網(wǎng)絡(luò)不容易解決,輸出層的activation大部分飽和,因此不建議使用sigmoid.
ReLU在自變量大于0時(shí)導(dǎo)數(shù)為1,小于0時(shí)導(dǎo)數(shù)為0,因此可以解決上述問題.

梯度爆炸
由于sigmoid,ReLU等函數(shù)的梯度都在[0,1]以內(nèi),所以不會(huì)引發(fā)梯度爆炸問題。 而梯度爆炸需要采用梯度裁剪、BN、設(shè)置較小學(xué)習(xí)率等方式解決。

激活函數(shù)選擇

首先嘗試ReLU,速度快,但要注意訓(xùn)練的狀態(tài).
如果ReLU效果欠佳,嘗試Leaky ReLU或Maxout等變種。
嘗試tanh正切函數(shù)(以零點(diǎn)為中心,零點(diǎn)處梯度為1)
sigmoid/tanh在RNN(LSTM、注意力機(jī)制等)結(jié)構(gòu)中有所應(yīng)用,作為門控或者概率值.
在淺層神經(jīng)網(wǎng)絡(luò)中,如不超過4層的,可選擇使用多種激勵(lì)函數(shù),沒有太大的影響。


https://en.wikipedia.org/wiki/Rectifier_(neural_networks) ↩?

https://zh.wikipedia.org/wiki/雙曲函數(shù) ↩?

http://mathforum.org/library/drmath/view/54179.html ↩?

談?wù)劶せ詈瘮?shù)以零為中心的問題 https://liam0205.me/2018/04/17/zero-centered-active-function/ ↩?

總結(jié)

以上是生活随笔為你收集整理的激活函数(ReLU, Swish, Maxout)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。