超越ReLU!SMU:一种新的激活函数,让CNN性能涨点!
點擊下方卡片,關注“CVer”公眾號
AI/CV重磅干貨,第一時間送達
轉載自:集智書童
SMU: smooth activation function for deep networks using smoothing maximum technique
論文:https://arxiv.org/abs/2111.04682
選擇一個好的激活函數可以對提高網絡性能產生重要的影響。Handcrafted Activation是神經網絡模型中最常見的選擇。盡管ReLU有一些嚴重的缺點,但由于其簡單性,ReLU成為深度學習中最常見的選擇。
本文在已知激活函數Leaky ReLU近似的基礎上,提出了一種新的激活函數,稱之為Smooth Maximum Unit(SMU)。用SMU替換ReLU,ShuffleNet V2模型在CIFAR100數據集上得到了6.22%的提升。
1介紹
神經網絡是深度學習的支柱。激活函數是神經網絡的大腦,在深度神經網絡的有效性和訓練中起著核心作用。ReLU由于其簡單性而成為深度學習領域的常用選擇。盡管它很簡單,但ReLU有一個主要的缺點,即ReLU死亡問題,在這種情況下,多達50%的神經元在網絡訓練期間死亡。
為了克服ReLU的不足,近年來提出了大量的激活方法,其中Leaky ReLU、Parametric ReLU 、ELU、Softplus、隨機化Leaky ReLU是其中的幾種,它們在一定程度上改善了ReLU的性能。
Swish是谷歌腦組提出的非線性激活函數,對ReLU有一定的改善;GELU是另一種常用的平滑激活函數??梢钥闯?#xff0c;Swish和GELU都是ReLU的光滑近似。近年來,人們提出了一些提高ReLU、Swish或GELU性能的非線性激活方法,其中一些是ReLU或Leaky ReLU的光滑逼近方法,還有TanhSoft、EIS、Padé激活單元、正交Padé激活單元、Mish、ErfAct等。
maximum function在原點處是非光滑的。在本文中,作者將探討maximum function的平滑逼近如何影響網絡的訓練和性能。
2Smooth Maximum Unit
作者提出了Smooth Maximum Unit (SMU)。從|x|函數的光滑逼近中可以找到一個maximum function的一般逼近公式,它可以平滑逼近一般的maxout族、ReLU、Leaky ReLU或其變體、Swish等。作者還證明了GELU函數是SMU的一個特例。
2.1 平滑近似Maximum Function
Maximum Function定義如下:
式1函數|x|在原點是不可微的。因此,從上式可以看出最大值函數在原點處也是不可微的。這里可以用Smooth函數來近似|x|函數。對于本文的其余部分,我們將只考慮兩個近似| x, 在深度學習問題中使用這兩個函數和近似的結果比其他近似|x|可以得到更好的結果。
注意,從上面平滑地近似|x|,而從下面平滑地近似|x|。這里 是一個平滑參數,當取 無窮大 時,近似函數平滑地逼近|x|。這里erf是高斯誤差函數,定義如下:
現將式(1)中的|x|函數替換為,則最大函數的光滑逼近公式如下:
式2同理,可以推導出的光滑近似公式:
式3注意,當無窮大,;當, 。對于和的特定值,可以近似已知的激活函數。例如,, ,得到:
式4這是maxout族中的一個簡單情況,而通過考慮和的非線性選擇可以發現更復雜的情況。對于和的特定值,可以得到ReLU和Leaky ReLU的平滑近似。例如,考慮和,有ReLU的平滑近似:
式5GELU是ReLU的光滑近似。注意,如果方程(5)中取,則可以逼近GELU激活函數,這也表明GELU是ReLU的光滑近似。此外,考慮和α,可以得到Leaky ReLU或Parametric ?ReLU的光滑逼近,這取決于α是超參數還是可學習參數。
式6請注意,式(5)和式(6)下端近似為ReLU或Leaky ReLU。同樣地,可以從式(3)推導出近似函數,它將近似上面的ReLU或Leaky ReLU。
式(6)對輸入變量x的相應導數為:
式7其中,
稱方程(6)中的函數為Smooth Maximum Unit(SMU)。可以將方程(3)中的和α替換為一個函數,稱之為SMU-1。對于所有的實驗,將使用SMU和SMU-1作為激活函數。
2.2 通過反向傳播學習激活參數
使用backpropagation技術更新可訓練激活函數參數。作者在Pytorch和Tensorflow-KerasAPI中實現了向前傳遞,自動區分將更新參數。另外,可以使用CUDA的實現,α和μ參數的梯度可以計算如下:
式8+9α和μ既可以是超參數,也可以是可訓練參數。對于SMU和SMU-1,α = 0.25,這是一個超參數。也將μ作為可訓練參數,對SMU和SMU-1分別在1000000和4.352665993287951e?09初始化。
這里,具有SMU和SMU-1激活函數的神經網絡密集在C(K)中,其中K是的子集,C(K)是K上所有連續函數的空間。
Proposition
設ρ是任意連續函數。設ρ表示一類具有激活函數ρ的神經網絡,在輸入層有n個神經元,在輸出層有1個神經元,在隱層有任意數目的神經元。設為compact,那么當且僅當ρ是非多項式時C(K)的是dense。
3實驗
3.1 分類
3.2 目標檢測
3.3 語義分割
上面論文PDF下載
后臺回復:SMU,即可下載上述論文
后臺回復:CVPR2021,即可下載CVPR 2021論文和代碼開源的論文合集
后臺回復:ICCV2021,即可下載ICCV?2021論文和代碼開源的論文合集
后臺回復:Transformer綜述,即可下載最新的兩篇Transformer綜述PDF
重磅!目標檢測交流群成立
掃碼添加CVer助手,可申請加入CVer-目標檢測?微信交流群,方向已涵蓋:目標檢測、圖像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超分辨率、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感圖像、行為識別、視頻理解、圖像融合、圖像檢索、論文投稿&交流、PyTorch和TensorFlow等群。
一定要備注:研究方向+地點+學校/公司+昵稱(如目標檢測+上海+上交+卡卡),根據格式備注,可更快被通過且邀請進群
▲長按加小助手微信,進交流群
▲點擊上方卡片,關注CVer公眾號
整理不易,請點贊和在看
總結
以上是生活随笔為你收集整理的超越ReLU!SMU:一种新的激活函数,让CNN性能涨点!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: go-resiliency源码解析之-t
- 下一篇: 物理学习:6招帮你搞定高中物理考试的计算