ResNet最强改进版来了!ResNeSt:Split-Attention Networks
《ResNeSt: Split-Attention Networks》
作者團隊:亞馬遜(張航和李沐等)&UC Davis
代碼(提供PyTorch和MXNet雙版本):
https://github.com/zhanghang1989/ResNeSt
論文:https://hangzhang.org/files/resnest.pdf
前言
開頭先致敬一下 ResNet!Amusi 于2020年4月17日在谷歌學術上查看ResNet的引用量,發現已高達 43413!請注意,這還只是ResNet發表短短4年多的引用量。
這里吐槽一句,現在出現很多基于NAS的新網絡(趨勢),暴力出奇跡,比如MobileNetV3、EfficientNet等,但論應用場景,還是ResNet給力。實際上,很多下游工作(目標檢測、圖像分割等)仍然在使用ResNet或其變體,主要是因為結構簡潔通用。
本文要介紹的是ResNet 的新變體:ResNeSt。繼續將ResNet"發揚光大",值得點贊。
Amusi 將標題注明了最強,很多人肯定會質疑是不是標題黨?究竟有多強?往下看,你就知道了!
先說幾組數據:
ResNeSt-50 在 ImageNet 上實現了81.13% top-1 準確率
簡單地用ResNeSt-50替換ResNet-50,可以將MS-COCO上的Faster R-CNN的mAP從39.25%提高到42.33%!
簡單地用ResNeSt-50替換ResNet-50,可以將ADE20K上的DeeplabV3的mIoU從42.1%提高到45.1%!
性能顯著提升,參數量并沒有顯著增加,部分實驗結果如下圖所示。輕松超越ResNeXt、SENet等前輩(巨人)們。
ResNeSt
ResNeSt 的全稱是:Split-Attention Networks,也就是特別引入了Split-Attention模塊。如果沒有猜錯,ResNeSt 的 S 應該就是 Split。
這里要說一下,ResNeSt 實際上是站在巨人們上的"集大成者",特別借鑒了:Multi-path 和 Feature-map Attention思想。
其中:
GoogleNet 采用了Multi-path機制,其中每個網絡塊均由不同的卷積kernels組成。
ResNeXt在ResNet bottle模塊中采用組卷積,將multi-path結構轉換為統一操作。?
SE-Net 通過自適應地重新校準通道特征響應來引入通道注意力(channel-attention)機制。?
SK-Net 通過兩個網絡分支引入特征圖注意力(feature-map attention)。
ResNeSt 和 SE-Net、SK-Net 的對應圖示如下:
其中上圖中都包含的 Split Attention模塊如下圖所示:
從圖1和圖2可知,都有split的影子。比如圖1中的 K(k) 和圖2中的 R(r) 都是超參數,也就是共計 G = K*R 組。
限于篇幅問題,本文旨在論文速遞。完整理解Split Attention模塊需要涉及部分公式,這里建議大家結合原文和代碼進行理解。目前代碼已經提供PyTorch和MXNet兩個版本。
https://github.com/zhanghang1989/ResNeSt
同時論文還介紹了訓練策略,這個對大家目前的工作應該具有很大的參考價值(漲點tricks)。
Large Mini-batch Distributed Training
Label Smoothing
Auto Augmentation
Mixup Training
Large Crop Size
Regularization
實驗結果
ResNeSt 在ImageNet 圖像分類性能如下,輕松超越SKNet、SENet、ResNetXt和ResNet。
ResNeSt 和其他SoTA的CNN模型進行性能比較(特別是NAS陣營)
ResNeSt 在MS-COCO 目標檢測和實例分割任務上的表現性能如下,漲點太恐怖!
ResNeSt 在ADE20K 語義分割任務上的表現性能如下:
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習在線手冊深度學習在線手冊AI基礎下載(pdf更新到25集)本站qq群1003271085,加入微信群請回復“加群”獲取一折本站知識星球優惠券,復制鏈接直接打開:https://t.zsxq.com/yFQV7am喜歡文章,點個在看
總結
以上是生活随笔為你收集整理的ResNet最强改进版来了!ResNeSt:Split-Attention Networks的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python 2 最后一个版本发布,正式
- 下一篇: 目前看的图神经网络(GNN)论文的一些总