當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

PyTorch教程（八）：常见激活函数与Loss的梯度

發布時間：2024/9/18 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了 PyTorch教程（八）：常见激活函数与Loss的梯度小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

如果不用激活函數，每一層輸出都是上層輸入的線性函數，無論神經網絡有多少層，輸出都是輸入的線性組合，這種情況就是最原始的感知機。

如果使用的話，激活函數給神經元引入了非線性因素，使得神經網絡可以任意逼近任何非線性函數，這樣神經網絡就可以應用到眾多的非線性模型中。

上圖就是一個最簡單的激活函數，當 $∑i=0N>0\sum_{i=0}^N>0$ 時節點才會激活。
但是這個激活函數有一個問題是不可導，在 $∑i=0N=0\sum_{i=0}^N=0$ 處是處于不連續的情況下，因此不可以求導，因此這個函數無法直接使用梯度下降的方式來優化，當時使用了啟發式搜索的方式來求解單層感知機最優解的情況。

為了解決單層激活函數階梯不可導的情況，科學家提出了sigmoid函數(Logistic函數)：
$=\sigma(x)= \frac{1}{1+e^{-x}}$

當 $\to \infty$ 時， $\to 1$ ，當 $\to -\infty$ 時， $\to 0$ 。而且可以看出倒數是連續可導的。

實際上sigmoid激活函數使用的非常多，最主要的是因為它連續光滑，而且值壓縮在(0,1)的范圍內，我們很多時候都需要(0,1)這樣一個范圍，比如概率和RGB。

但是sigmoid存在一個致命的權限，當 $\to \infty$ 和 $\to -\infty$ 時，導數都為0，因此當值處在這部分區間時，參數 $θ′=θ??=θ?0=θ\theta'=\theta-\nabla=\theta-0=\theta$ 長時間得不到更新，出現梯度離線現象。

sigmoid在PyTorch實現

import torchz = torch.linspace(-100,100,10) # tensor([-100.0000, -77.7778, -55.5556, -33.3333, -11.1111, 11.1111, # 33.3333, 55.5556, 77.7778, 100.0000])torch.sigmoid(z) # tensor([0.0000e+00, 1.6655e-34, 7.4564e-25, 3.3382e-15, 1.4945e-05, 9.9999e-01, # 1.0000e+00, 1.0000e+00, 1.0000e+00, 1.0000e+00])

或者使用from torch.nn import functional as F的方式：

from torch.nn import functional as FF.sigmoid(z) # tensor([0.0000e+00, 1.6655e-34, 7.4564e-25, 3.3382e-15, 1.4945e-05, 9.9999e-01, # 1.0000e+00, 1.0000e+00, 1.0000e+00, 1.0000e+00])

可以看出當 $z = ? 100$ 的時候，sigmoid的值已經是非常小的了，接近于0了；當 $z = 100$ 的時候，sigmoid的值也接近于0了

Tanh激活函數

Tanh激活函數在RNN中用的比較多。
$tanh(x)=\frac{e^x-e^{-x}}{(e^x+e^{-x})}=2sigmoid(2x)-1$

所以Tanh的取值范圍是(-1,1)。

z = torch.linspace(-1,1,10) torch.tanh(z) #tensor([-0.7616, -0.6514, -0.5047, -0.3215, -0.1107, 0.1107, 0.3215, 0.5047, # 0.6514, 0.7616])

Rectified Linear Unit (ReLU)激活函數

非常簡單，但是可以說是現在深度學習的奠基石的激活函數。現在深度學習使用最多的激活函數就是ReLU激活函數。

$f(x)={0for?x<0x,x≥0f(x)=\begin{cases} 0 & \text {for x<0} \\ x, & \text{x}\geq 0 \end{cases}$

ReLU函數的導數：
$f′(x)={0for?x<01,x≥0f'(x)=\begin{cases} 0 & \text {for x<0} \\ 1, & \text{x}\geq 0 \end{cases}$
因為當 $x≥0x\ge0$ 時，梯度是1，因此在向后傳播時，梯度計算起來非常方便，不會放大也不會縮小，不會出現梯度離散和梯度爆炸的情況。

z = torch.linspace(-1,1,10) torch.relu(z) # tensor([ 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 11.1111, 33.3333, # 55.5556, 77.7778, 100.0000]) F.relu(z) # tensor([0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.1111, 0.3333, 0.5556, 0.7778, # 1.0000])

一般在做research的時候，通常都是用ReLU激活函數。

總結

以上是生活随笔為你收集整理的PyTorch教程（八）：常见激活函数与Loss的梯度的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： PyTorch教程（七）：属性统计
下一篇： PyTorch教程（九）：损失函数与Lo