日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR 2021 | 自适应激活函数ACON:统一ReLU和Swish的新范式

發布時間:2024/10/8 编程问答 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 CVPR 2021 | 自适应激活函数ACON:统一ReLU和Swish的新范式 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?作者|馬寧寧

學校|香港科技大學博士生

研究方向|計算機視覺


本文提出一種新的激活函數 ACON (activate or not),可以自適應地學習激活與否。?


ReLU 是最常見的激活函數,最近 NAS 搜到的 Swish 在各種 SOTA 網絡結構中逐漸取代 ReLU。有趣的是,我們發現雖然兩者形式看起來很不一樣,但 Swish 可以解釋為 ReLU 的一種平滑近似。基于這個發現,本文進一步分析 ReLU 的一般形式 Maxout 系列激活函數,從而得到 Swish 的一般形式、簡單且有效的 ACON 激活函數。?


本文在多個任務上驗證了此方法的漲點性能和泛化性能(例如在 MobileNet-0.25 和 ResNet-152 上,分別將 ImageNet 準確率提高了 6.7% 和 1.8%),這表明 ACON 對已有的激活函數中是一種有效的替代方法。

論文標題:

Activate or Not: Learning Customized Activation

論文鏈接:

https://arxiv.org/abs/2009.04759

代碼鏈接:

https://github.com/nmaac/acon


ReLU和Swish的關系

前面提到,NAS 在現代激活函數方面取得了成功,NAS 搜索到的 Swish 已經在 EfficientNet 等許多 SOTA 模型中已經成為默認配置,但如何解釋 Swish 背后的原理呢?(SENet 也是近年的 SOTA 標配,我們在另一個工作 WeightNet?中也做過一些有意思的探討)本文的一個目標是提出一個新的視角,去解釋這個搜索結果背后的機制,并研究更有效的激活功能。下面會詳細講解如何把 Swish 理解為 ReLU 的一種平滑近似:

對于一個最大函數 ,我們可以通過一個簡單而通用的近似公式來獲取他的平滑近似:

這里引入了一個?,它控制著??的平滑程度:

當??時,(非線性)

當??時,??算術平均?(線性)

從下面的示例圖可以更形象的看出??的作用:

對于公式 (1),我們僅考慮 n=2 的情況,可以推導成下面用 sigmoid 來表示的形式,其中用 分別代表這兩項:

我們發現上面的形式看起來仍然很復雜,但當我們把 代入合適的值,有意思的事情就發生了:

我們發現,當 時, 恰好是 ReLU 的表達式,而 又恰好是 Swish 的表達式。于是,我們可以把 Swish 解釋為 ReLU 的這樣一種平滑近似。


ReLU的一般式和Swish的一般式的關系

前面給出了一種新的視角解釋了 ReLU 和 Swish 的關系,下面本文對 ReLU 的一般式 Maxout 做出同樣的平滑近似,便得到了一簇新的激活函數,即 ACON 系列激活函數。其中 ReLU 是 Maxout 的一種特殊形式,Swish 是 ACON 的一種特殊形式。

我們把 代入不同的值,得到上表中的不同形式,我們著重分析 ACON-C,計算它的導數:

看起來會新增加額外的參數 ,我們畫出下圖來更直觀的理解它。可以發現在一階導中, 控制著其漸進上下界的速度,而 則控制著上下界的值,這一點是 Swish 所欠缺的,后面的實驗也會證明 的重要性。

▲ 驗證ACON-C中p1,p2的漲點性能,即使在大模型Res152上也有1.1的漲點


ACON的更多特例:ACON-FReLU

前面對 Maxout 中 的不同取值做了分析。最近專門針對視覺任務的新激活函數 FReLU (Funnel Activation for Visual Recognition [1]) 也是 Maxout 的一種特例,本文設 后,得到了 ACON-FReLU,并且基于此模塊,設計了一個僅由 Conv1x1 和 ACON-FReLU 組成的輕量級 block:

以此 block 為基礎搭建了 Toy Funnel Network (TFNet),來驗證 ACON-FReLU 的有效性:

▲ 和同樣不含SE模塊的輕量級網絡相比可以看到明顯優勢


Meta-ACON

前面對 的不同變體著重做了分析,但前面提到 也同樣重要因為其控制了激活程度。然而,從實驗結果來看,在 Swish 的原始文章中也提到, 作用不大,即使 固定為 1(Swish-1),也能取得差別不大的性能。

這與我們前面對 的分析相違背,于是,本文對 用非常簡單直接的小網絡結構去生成,即顯式地學習激活程度而不僅僅是把 作為一個參數,這樣就解決了 效果不大的問題:

下面在不同任務上展示此方法的有效性,可以看到,Meta-ACON 取得了相比于 SENet 幾乎兩倍的漲點:

▲ 在大模型和小模型都能有非常顯著的漲點,且隨著模型變大,漲點效果沒有明顯減弱

▲?從學習曲線可以看到ACON-C相比于Swish的優勢在于后期仍能有提升,Meta-ACON則效果跟為顯著

▲?在其他任務上的泛化性能

更多細節請參考原文和代碼。

參考文獻

[1]?https://arxiv.org/pdf/2007.11824.pdf

更多閱讀

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。

?????來稿標準:

? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發送?

? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的CVPR 2021 | 自适应激活函数ACON:统一ReLU和Swish的新范式的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。