日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Swin Transformer 升级,Swin V2:向更大容量、更高分辨率的更大模型迈进

發布時間:2025/3/8 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Swin Transformer 升级,Swin V2:向更大容量、更高分辨率的更大模型迈进 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者丨happy
編輯丨極市平臺
本文原創首發于極市平臺公眾號,轉載請獲得授權并標明出處

論文鏈接:https://arxiv.org/pdf/2111.09833.pdf

代碼鏈接:https://github.com/microsoft/Swin-Transformer

SwinTransformer重磅升級 !MSRA提出SwinV2,朝著更大容量、更高分辨率的更大模型出發,在多個基準數據集(包含ImageNet分類、COCO檢測、ADE20K語義分割以及Kinetics-400動作分類)上取得新記錄。針對SwinV1在更大模型方面存在的幾點問題,提出了后規范化技術、對數空間連續位置偏置技術、大幅降低GPU占用的實現等得到了具有超高性能的SwinV2,刷新了多個基準數據集的指標。

Abstract

本文提出一種升級版SwinTransformerV2,最高參數量可達3 Billion,可處理1536×15361536\times 15361536×1536尺寸圖像。通過提升模型容量與輸入分辨率,SwinTransformer在四個代表性基準數據集上取得了新記錄:84.%@ImageNetV2、63.1 box 與54.4 max mAP@COCO、59.9mIoU@ADE20K以及86.8%@Kinetics-400(視頻動作分類)。

所提技術可以廣泛用于視覺模型縮放,該技術在NLP語言建模中已得到廣泛探索,但在視覺任務中尚未進行,主要是因為以下幾點訓練與應用難題:

  • 視覺模型通常面臨尺度不穩定 問題;

  • 下游任務需要高分辨率圖像,尚不明確如何將低分辨率預訓練模型遷移為高分辨率版本

  • 此外,當圖像分辨率非常大時,GPU顯存占用 也是個問題。

為解決上述問題,我們以SwinTransformer作為基線,提出了幾種改進技術:

  • 提出后規范化(Post Normalization)技術 與可縮放(Scaled)cosine注意力提升大視覺模型的穩定性;

  • 提出log空間連續位置偏置 技術進行低分辨率預訓練模型向高分辨率模型遷移。

  • 此外,我們還共享了至關重要的實現細節 ,它可以大幅節省GPU顯存占用以使得大視覺模型訓練變得可行。

基于上述技術與自監督預訓練,我們成功訓練了一個包含3B參數量的SwinTransformer模型并將其遷移到不同的高分辨率輸入的下游任務上,取得了SOTA性能。

全文地址:Swin Transformer 重磅升級!Swin V2:向更大容量、更高分辨率的更大模型邁進

關注極市平臺公眾號,獲取最新CV干貨

總結

以上是生活随笔為你收集整理的Swin Transformer 升级,Swin V2:向更大容量、更高分辨率的更大模型迈进的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。