深度学习数学基础(三): 激活函数、正则化函数、损失函数、评价指标
目錄
1. 激活函數(shù)activation function
1.1 Sigmoid
1.2 tanh?
1.3 ReLU
1.4 Leaky ReLU
1.5 softmax
1.6?Gelu
2. 歸一化 normalization
2.1 Layer normalization
3. 損失函數(shù)
3.1?sigmoid函數(shù)
3.2 KL divergence loss
3.3 reconstruction loss
4. 評(píng)價(jià)指標(biāo)
4.1 BLUE 和 ROUGE/ru??/
參考
??????????????
1. 激活函數(shù)activation function
作者:量子位
鏈接:https://www.zhihu.com/question/264189719/answer/649129090
來源:知乎
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。
?
你也許會(huì)注意到,在上面的神經(jīng)網(wǎng)絡(luò)中,每層的輸出都是在線性運(yùn)算的結(jié)果后加上一個(gè)“過濾”。為什么要這樣處理呢?
現(xiàn)實(shí)中輸入和輸出之間的關(guān)系通常并非線性。如果神經(jīng)網(wǎng)絡(luò)的架構(gòu)僅由線性算法組成,那么它很難計(jì)算出非線性行為。所以我們要在每層的結(jié)尾加上一個(gè)激活函數(shù)。
【擴(kuò)展學(xué)習(xí):非線性函數(shù)】線性函數(shù)是一次函數(shù)的別稱,則非線性函數(shù)即函數(shù)圖像不是一條直線的函數(shù)。非線性函數(shù)包括指數(shù)函數(shù)、冪函數(shù)、對(duì)數(shù)函數(shù)、多項(xiàng)式函數(shù)等等基本初等函數(shù)以及他們組成的復(fù)合函數(shù)。
不同的激活函數(shù)有不同的特點(diǎn)。選取不當(dāng)會(huì)導(dǎo)致梯度變得非常小,就是通常所說的梯度消失問題。
另外還存在一種相反的問題,就是梯度爆炸,當(dāng)梯度值過大時(shí),網(wǎng)絡(luò)會(huì)變得非常不穩(wěn)定。
常見的4種激活函數(shù)有:Sigmoid、tanh,ReLU、leaky ReLU,下面簡(jiǎn)單討論一下它們的優(yōu)缺點(diǎn)。
1.1 Sigmoid
1/(1+e-x)
這個(gè)函數(shù)非常適合將輸入分為兩類。它的形狀很緩和,因此它的梯度能得到很好的控制。
主要的缺點(diǎn)是,在極端情況下,函數(shù)輸出變得非常平坦。這意味著它存在梯度消失的問題。
1.2 tanh?
(2 / (1+e-2x)) - 1
它與Sigmoid非常相似。函數(shù)曲線更陡峭,因此它的輸出也將更強(qiáng)大。缺點(diǎn)與Sigmoid類似。
1.3 ReLU
max(0,x)
如果輸入大于0,則輸出等于輸入。否則,輸出為0。
它的輸出范圍從0到無窮大。這意味著它的輸出可能會(huì)變得非常大,可能存在梯度爆炸問題。它還有個(gè)問題是左側(cè)完全平坦,可能導(dǎo)致梯度消失。
ReLU計(jì)算簡(jiǎn)單,是神經(jīng)網(wǎng)絡(luò)內(nèi)層最常用的激活函數(shù)。
1.4 Leaky ReLU
將ReLU函數(shù)的前半段用0.01x代替。
1.5 softmax
e-x / Sum(e-x)
輸出范圍介于0和1之間。
Softmax將輸入歸一化為概率分布。它將輸入壓縮為0到1范圍,就像Sigmoid。
它通常在多分類場(chǎng)景中的輸出層,Softmax確保每個(gè)類的概率之和為1。
實(shí)際上,神經(jīng)網(wǎng)絡(luò)是一系列函數(shù)的組合,有一些是線性的,有一些是非線性的,它們共同組成一個(gè)復(fù)雜的函數(shù),將輸入數(shù)據(jù)連接到我們需要的輸出。
1.6?Gelu
2. 歸一化 normalization
2.1 Layer normalization
3. 損失函數(shù)
3.1?sigmoid函數(shù)
3.2 KL divergence loss
3.3 reconstruction loss
4. 評(píng)價(jià)指標(biāo)
4.1 BLUE 和 ROUGE/ru??/
BLUE和ROUGE是機(jī)器翻譯的打分指標(biāo)metrics
- BLUE,Bilingual Evaluation Understudy
- ROUGE, Recall-oriented Understudy for Gisting Evaluation
參考
[1] Congying Xia.?CG-BERT: Conditional Text Generation with BERT for Generalized?Few-shot Intent Detection.?arXiv:2004.01881v1 [cs.CL] 4 Apr 2020
總結(jié)
以上是生活随笔為你收集整理的深度学习数学基础(三): 激活函数、正则化函数、损失函数、评价指标的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 知识图谱基础知识(一): 概念和构建
- 下一篇: 深度学习数学基础(一)~卷积