當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

超越ReLU！SMU：一种新的激活函数，让CNN性能涨点！

發布時間：2024/1/18 编程问答 98 豆豆

生活随笔收集整理的這篇文章主要介紹了超越ReLU！SMU：一种新的激活函数，让CNN性能涨点！小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

點擊下方卡片，關注“CVer”公眾號

AI/CV重磅干貨，第一時間送達

轉載自：集智書童

SMU: smooth activation function for deep networks using smoothing maximum technique

論文：https://arxiv.org/abs/2111.04682

選擇一個好的激活函數可以對提高網絡性能產生重要的影響。Handcrafted Activation是神經網絡模型中最常見的選擇。盡管ReLU有一些嚴重的缺點，但由于其簡單性，ReLU成為深度學習中最常見的選擇。

本文在已知激活函數Leaky ReLU近似的基礎上，提出了一種新的激活函數，稱之為Smooth Maximum Unit(SMU)。用SMU替換ReLU，ShuffleNet V2模型在CIFAR100數據集上得到了6.22%的提升。

1介紹

神經網絡是深度學習的支柱。激活函數是神經網絡的大腦，在深度神經網絡的有效性和訓練中起著核心作用。ReLU由于其簡單性而成為深度學習領域的常用選擇。盡管它很簡單，但ReLU有一個主要的缺點，即ReLU死亡問題，在這種情況下，多達50%的神經元在網絡訓練期間死亡。

為了克服ReLU的不足，近年來提出了大量的激活方法，其中Leaky ReLU、Parametric ReLU 、ELU、Softplus、隨機化Leaky ReLU是其中的幾種，它們在一定程度上改善了ReLU的性能。

Swish是谷歌腦組提出的非線性激活函數，對ReLU有一定的改善；GELU是另一種常用的平滑激活函數?？梢钥闯?#xff0c;Swish和GELU都是ReLU的光滑近似。近年來，人們提出了一些提高ReLU、Swish或GELU性能的非線性激活方法，其中一些是ReLU或Leaky ReLU的光滑逼近方法，還有TanhSoft、EIS、Padé激活單元、正交Padé激活單元、Mish、ErfAct等。

maximum function在原點處是非光滑的。在本文中，作者將探討maximum function的平滑逼近如何影響網絡的訓練和性能。

2Smooth Maximum Unit

作者提出了Smooth Maximum Unit (SMU)。從|x|函數的光滑逼近中可以找到一個maximum function的一般逼近公式，它可以平滑逼近一般的maxout族、ReLU、Leaky ReLU或其變體、Swish等。作者還證明了GELU函數是SMU的一個特例。

2.1 平滑近似Maximum Function

Maximum Function定義如下：

式1

函數|x|在原點是不可微的。因此，從上式可以看出最大值函數在原點處也是不可微的。這里可以用Smooth函數來近似|x|函數。對于本文的其余部分,我們將只考慮兩個近似| x, 在深度學習問題中使用這兩個函數和近似的結果比其他近似|x|可以得到更好的結果。

注意，從上面平滑地近似|x|，而從下面平滑地近似|x|。這里是一個平滑參數，當取無窮大時，近似函數平滑地逼近|x|。這里erf是高斯誤差函數，定義如下:

現將式(1)中的|x|函數替換為，則最大函數的光滑逼近公式如下:

式2

同理，可以推導出的光滑近似公式:

式3

注意，當無窮大,；當, 。對于和的特定值，可以近似已知的激活函數。例如，, ，得到：

式4

這是maxout族中的一個簡單情況，而通過考慮和的非線性選擇可以發現更復雜的情況。對于和的特定值，可以得到ReLU和Leaky ReLU的平滑近似。例如，考慮和，有ReLU的平滑近似：

式5

GELU是ReLU的光滑近似。注意，如果方程(5)中取，則可以逼近GELU激活函數，這也表明GELU是ReLU的光滑近似。此外，考慮和α，可以得到Leaky ReLU或Parametric ?ReLU的光滑逼近，這取決于α是超參數還是可學習參數。

式6

請注意，式(5)和式(6)下端近似為ReLU或Leaky ReLU。同樣地，可以從式(3)推導出近似函數，它將近似上面的ReLU或Leaky ReLU。

式(6)對輸入變量x的相應導數為:

式7

其中，

稱方程(6)中的函數為Smooth Maximum Unit(SMU)。可以將方程(3)中的和α替換為一個函數，稱之為SMU-1。對于所有的實驗，將使用SMU和SMU-1作為激活函數。

2.2 通過反向傳播學習激活參數

使用backpropagation技術更新可訓練激活函數參數。作者在Pytorch和Tensorflow-KerasAPI中實現了向前傳遞，自動區分將更新參數。另外，可以使用CUDA的實現，α和μ參數的梯度可以計算如下:

式8+9

α和μ既可以是超參數，也可以是可訓練參數。對于SMU和SMU-1，α = 0.25，這是一個超參數。也將μ作為可訓練參數，對SMU和SMU-1分別在1000000和4.352665993287951e?09初始化。

這里，具有SMU和SMU-1激活函數的神經網絡密集在C(K)中，其中K是的子集，C(K)是K上所有連續函數的空間。

Proposition

設ρ是任意連續函數。設ρ表示一類具有激活函數ρ的神經網絡，在輸入層有n個神經元，在輸出層有1個神經元，在隱層有任意數目的神經元。設為compact，那么當且僅當ρ是非多項式時C(K)的是dense。

3實驗

3.1 分類

3.2 目標檢測

3.3 語義分割

上面論文PDF下載

后臺回復：SMU，即可下載上述論文

后臺回復：CVPR2021，即可下載CVPR 2021論文和代碼開源的論文合集

后臺回復：ICCV2021，即可下載ICCV?2021論文和代碼開源的論文合集

后臺回復：Transformer綜述，即可下載最新的兩篇Transformer綜述PDF

重磅！目標檢測交流群成立

掃碼添加CVer助手，可申請加入CVer-目標檢測?微信交流群，方向已涵蓋：目標檢測、圖像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超分辨率、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感圖像、行為識別、視頻理解、圖像融合、圖像檢索、論文投稿&交流、PyTorch和TensorFlow等群。

一定要備注：研究方向+地點+學校/公司+昵稱（如目標檢測+上海+上交+卡卡），根據格式備注，可更快被通過且邀請進群

▲長按加小助手微信，進交流群

▲點擊上方卡片，關注CVer公眾號

整理不易，請點贊和在看

總結

以上是生活随笔為你收集整理的超越ReLU！SMU：一种新的激活函数，让CNN性能涨点！的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： go-resiliency源码解析之-t
下一篇：物理学习：6招帮你搞定高中物理考试的计算