日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Swin Transformer升级版来了!30亿参数,刷榜多项视觉任务

發(fā)布時(shí)間:2024/10/8 编程问答 57 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Swin Transformer升级版来了!30亿参数,刷榜多项视觉任务 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.


?作者?|?杜偉、陳萍

來(lái)源?|?機(jī)器之心

微軟亞洲研究院升級(jí)了 Swin Transformer,新版本具有 30 億個(gè)參數(shù),可以訓(xùn)練分辨率高達(dá) 1,536×1,536 的圖像,并在四個(gè)具有代表性的基準(zhǔn)上刷新紀(jì)錄。

在不久之前公布的 ICCV 2021 論文獎(jiǎng)項(xiàng)中,來(lái)自微軟亞洲研究院的研究者憑借論文《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》斬獲 ICCV 2021 馬爾獎(jiǎng)(最佳論文)。這篇論文的作者主要包括中國(guó)科學(xué)技術(shù)大學(xué)的劉澤、西安交通大學(xué)的林宇桐、微軟的曹越和胡瀚等人。該研究提出了一種新的 vision Transformer,即 Swin Transformer,它可以作為計(jì)算機(jī)視覺(jué)的通用骨干。

相比之前的 ViT 模型,Swin Transformer 做出了以下兩點(diǎn)改進(jìn):其一,引入 CNN 中常用的層次化構(gòu)建方式構(gòu)建分層 Transformer;其二,引入局部性(locality)思想,對(duì)無(wú)重合的窗口區(qū)域內(nèi)進(jìn)行自注意力計(jì)算。在 Swin Transformer 論文公開沒(méi)多久之后,微軟官方也在 GitHub 上開源了代碼和預(yù)訓(xùn)練模型,涵蓋圖像分類、目標(biāo)檢測(cè)以及語(yǔ)義分割任務(wù)。

近日,該團(tuán)隊(duì)又提出一種升級(jí)版 SwinTransformer V2。

論文地址:

https://arxiv.org/pdf/2111.09883.pdf

通常來(lái)講,Transformer 適用于擴(kuò)展視覺(jué)模型,但它還沒(méi)有像 NLP 語(yǔ)言模型那樣得到廣泛的探索,部分原因是因?yàn)樵谟?xùn)練和應(yīng)用方面存在以下困難:

  • 視覺(jué)模型經(jīng)常面臨擴(kuò)展不穩(wěn)定問(wèn)題;

  • 許多下游視覺(jué)任務(wù)需要高分辨率的圖像或窗口,目前尚不清楚如何有效地將在低分辨率下預(yù)訓(xùn)練的模型轉(zhuǎn)換為更高分辨率的模型;

  • 當(dāng)圖像分辨率較高時(shí),GPU 內(nèi)存消耗也是一個(gè)問(wèn)題。

為了解決上述問(wèn)題,該團(tuán)隊(duì)將 SwinTransformer 作為基線提出了幾種改進(jìn)技術(shù),具體表現(xiàn)在:

  • 提出后歸一化(post normalization)技術(shù)和縮放余弦注意力(scaled cosine attention)方法,來(lái)提高大型視覺(jué)模型的穩(wěn)定性;

  • 提出 log-spaced 連續(xù)位置偏差技術(shù),可有效地將在低分辨率圖像和窗口中預(yù)訓(xùn)練的模型遷移到更高分辨率對(duì)應(yīng)模型。

此外,該研究還介紹了關(guān)鍵實(shí)現(xiàn)細(xì)節(jié),這些細(xì)節(jié)可顯著節(jié)省 GPU 內(nèi)存消耗,使得常規(guī) GPU 訓(xùn)練大型視覺(jué)模型成為可能。使用這些技術(shù)和自監(jiān)督預(yù)訓(xùn)練,該團(tuán)隊(duì)訓(xùn)練了一個(gè)具有 30 億參數(shù)的 Swin Transformer 模型,并將其有效地遷移到高分辨率圖像或窗口的各種視覺(jué)任務(wù)中,在各種基準(zhǔn)上實(shí)現(xiàn)了 SOTA 性能。

通過(guò)擴(kuò)展容量和分辨率,Swin Transformer V2 在四個(gè)具有代表性的基準(zhǔn)上刷新紀(jì)錄:在 ImageNet-V2 圖像分類任務(wù)上 top-1 準(zhǔn)確率為 84.0%,COCO 目標(biāo)檢測(cè)任務(wù)為 63.1 / 54.4 box / mask mAP,ADE20K 語(yǔ)義分割為 59.9 mIoU,Kinetics-400 視頻動(dòng)作分類的 top-1 準(zhǔn)確率為 86.8%。

部分刷榜截圖。圖源:https://paperswithcode.com/sota

?Swin Transformer V2

研究者觀察到 Swin Transformer 在擴(kuò)展模型容量和窗口分辨率時(shí)存在以下兩個(gè)問(wèn)題。

其一,擴(kuò)展模型容量的不穩(wěn)定問(wèn)題。如下圖 2 所示,當(dāng)我們將原始 Swin Transformer 模型從小到大擴(kuò)展時(shí),更深層的激活值急劇增加。具有最高和最低振幅的層之間的偏差達(dá)到了 10^4 的極值。

當(dāng)我們進(jìn)一步將其擴(kuò)展到一個(gè)巨大的規(guī)模(6.58 億參數(shù))時(shí),Swin Transformer 無(wú)法完成訓(xùn)練,如下圖 3 所示。

其二,跨窗口分辨率遷移模型時(shí)性能下降。如下表 1 第一行所示,當(dāng)我們通過(guò)雙三次插值方法,在更大的圖像分辨率和窗口大小直接測(cè)試預(yù)訓(xùn)練 ImageNet-1K 模型(分辨率 256 × 256,窗口大小 8 × 8)的準(zhǔn)確率時(shí),發(fā)現(xiàn)準(zhǔn)確率顯著下降。這可能值得去重新檢查原始 Swin Transformer 中的相對(duì)位置偏差方法。

擴(kuò)展模型容量

在本節(jié)內(nèi)容中,研究者介紹了上述兩個(gè)問(wèn)題的解決方法,包括如下:

  • 使用后歸一化和縮放余弦注意力解決不穩(wěn)定性問(wèn)題;

  • 使用 log-spaced 連續(xù)位置偏差方法解決跨窗口分辨率遷移問(wèn)題。

一方面,為了緩解擴(kuò)展模型容量時(shí)的不穩(wěn)定問(wèn)題,研究者使用了后歸一化方法,如下圖 1 所示。在這種方法中,每個(gè)殘差塊的輸出在合并回主分支之前被歸一化,并且當(dāng)層數(shù)越深時(shí),主分支的振幅不會(huì)積聚。

又如上圖 2 所示,這種方法的激活幅度變得比原始預(yù)歸一化配置溫和得多。在研究者最大的模型訓(xùn)練中,他們每 6 個(gè) Transformer 塊都會(huì)在主分支上額外引入一個(gè)層歸一化單元,以進(jìn)一步穩(wěn)定訓(xùn)練和振幅。

另一方面,在原始的自注意力計(jì)算中,像素對(duì)的相似項(xiàng)被計(jì)算為查詢向量和關(guān)鍵向量的點(diǎn)積。研究者發(fā)現(xiàn)將這種方法用于大型視覺(jué)模型時(shí),特別是在 post-norm 配置中,一些塊和頭部學(xué)得的注意力圖經(jīng)常由幾個(gè)像素對(duì)主導(dǎo)。為了緩解這個(gè)問(wèn)題,他們提出了一種縮放余弦注意力方法,它通過(guò)縮放余弦函數(shù)計(jì)算像素對(duì) i 和 j 的注意力對(duì)數(shù):

擴(kuò)展窗口分辨率

在本節(jié)中,研究者介紹了一種 log-spaced 連續(xù)位置偏差方法,以使得相對(duì)位置偏差可以在窗口分辨率之間平滑地遷移。連續(xù)位置偏差方法不是直接優(yōu)化參數(shù)化偏差,而是在相對(duì)坐標(biāo)上引入一個(gè)小的元(meta)網(wǎng)絡(luò):

元網(wǎng)絡(luò)為任意相對(duì)坐標(biāo)生成偏差值,因此可以自然地遷移到具有任意變化窗口大小的微調(diào)任務(wù)。對(duì)于推理任務(wù),每個(gè)相對(duì)位置的偏差值可以預(yù)先計(jì)算并存儲(chǔ)為模型參數(shù),這樣在推理時(shí)與原始參數(shù)化偏差方法一樣方便。

當(dāng)在變化很大的窗口大小之間遷移時(shí),將有很大一部分相對(duì)坐標(biāo)范圍需要外推。為了緩解這個(gè)問(wèn)題,研究者提出使用 log-spaced 坐標(biāo)替代原始 linear-spaced 坐標(biāo):

節(jié)省 GPU 內(nèi)存的實(shí)現(xiàn)

另一個(gè)問(wèn)題在于當(dāng)容量和分辨率都很大時(shí),常規(guī)實(shí)現(xiàn)的 GPU 內(nèi)存消耗難以承受。為了解決內(nèi)存問(wèn)題,研究者采用以下幾種實(shí)現(xiàn)方法:

  • 零冗余優(yōu)化器(Zero-Redundancy Optimizer, ZeRO)

  • 激活檢查點(diǎn)(Activation check-pointing)

  • 順序自注意力計(jì)算(Sequential self-attention computation)

通過(guò)這些實(shí)現(xiàn),研究者成功地使用 Nvidia A100-40G GPU 訓(xùn)練了一個(gè) 3B(30 億參數(shù)) 模型,既可以用于輸入圖像分辨率為 1,536×1,536 的 COCO 目標(biāo)檢測(cè),也可用于輸入分辨率為 320 × 320 × 8 的 Kinetics-400 動(dòng)作分類。

實(shí)驗(yàn)結(jié)果

該團(tuán)隊(duì)在 ImageNet-1K 圖像分類(V1 和 V2)、COCO 目標(biāo)檢測(cè)和 ADE20K 語(yǔ)義分割進(jìn)行了實(shí)驗(yàn)。此外,對(duì)于 30 億參數(shù)模型實(shí)驗(yàn),該研究還報(bào)告了 Swin Transformer V2 在 Kinetics400 視頻動(dòng)作識(shí)別上的準(zhǔn)確率 。

SwinV2-G 實(shí)驗(yàn)設(shè)置:預(yù)訓(xùn)練采用 192×192 圖像分辨率,以節(jié)省訓(xùn)練成本,實(shí)驗(yàn)采用 2-step 預(yù)訓(xùn)練方法:首先,在 ImageNet-22K-ext 數(shù)據(jù)集上使用自監(jiān)督方法對(duì)模型進(jìn)行 20epoch 的預(yù)訓(xùn)練。其次,在 ImageNet-1K V1 和 V2 分類任務(wù)上,繼續(xù)將模型進(jìn)行 30epoch 預(yù)訓(xùn)練。

ImageNet-1K 圖像分類結(jié)果:表 2 將 SwinV2-G 模型與之前在 ImageNet-1K V1 和 V2 分類任務(wù)上的最大 / 最佳視覺(jué)模型進(jìn)行了比較。SwinV2-G 是之前所有密集(dense)視覺(jué)模型中最大的。它在 ImageNet V2 基準(zhǔn)測(cè)試中達(dá)到了 84.0% 的 top-1 準(zhǔn)確率,比之前最好的 ViT-G (83.3%) 高 0.7%。但是,SwinV2-G 在 ImageNet-1K V1 上的準(zhǔn)確率比 CoAtNet-7 略低(90.17% 比 90.88%)。

COCO 目標(biāo)檢測(cè)結(jié)果:表 3 將 SwinV2-G 模型與之前在 COCO 目標(biāo)檢測(cè)和實(shí)例分割任務(wù)上取得最佳性能模型進(jìn)行了比較。SwinV2-G 在 COCO test-dev 上實(shí)現(xiàn)了 63.1/54.4 box/max AP,比 SoftTeacher(61.3/53.0) 提高了 + 1.8/1.4。這表明擴(kuò)展視覺(jué)模型有利于目標(biāo)檢測(cè)任務(wù)中的密集視覺(jué)識(shí)別任務(wù)。

ADE20K 語(yǔ)義分割結(jié)果:下表 4 將 SwinV2-G 模型與之前在 ADE20K 語(yǔ)義分割基準(zhǔn)上的 SOTA 結(jié)果進(jìn)行了比較。Swin-V2-G 在 ADE20K val 集上實(shí)現(xiàn)了 59.9 mIoU,比之前的 SOTA 結(jié)果(BEiT)58.4 高了 1.5。這表明擴(kuò)展視覺(jué)模型有益于像素級(jí)視覺(jué)識(shí)別任務(wù)。在測(cè)試時(shí)使用更大的窗口大小還可以帶來(lái) +0.2 的增益,這可能歸功于有效的 Log-spaced CPB 方法。

Kinetics-400 視頻動(dòng)作分類結(jié)果:下表 5 將 SwinV2-G 模型與之前在 Kinetics-400 動(dòng)作分類基準(zhǔn)上的 SOTA 結(jié)果進(jìn)行了比較。可以看到,Video-SwinV2-G 實(shí)現(xiàn)了 86.8% 的 top-1 準(zhǔn)確率,比之前的 SOTA (TokenLearner)85.4% 高出 +1.4%。這表明擴(kuò)展視覺(jué)模型也有益于視頻識(shí)別任務(wù)。在這種場(chǎng)景下,在測(cè)試時(shí)使用更大的窗口大小也可以帶來(lái)額外增益 ( +0.2% ),這也要?dú)w功于有效的 Log-spaced CPB 方法。

post-norm 和縮放余弦注意力的消融實(shí)驗(yàn):下表 6 展示了 post-norm 和縮放余弦注意力方法應(yīng)用于原始 Swin Transformer 方法的性能表現(xiàn)。可以看到,這兩種方法都提高了 Swin-Tiny、Swin-Small 和 Swin-Base size 的準(zhǔn)確率,整體提升分別為 +0.2%、+0.4% 和 +0.5%,表明它們對(duì)更大的模型更有益。

特別鳴謝

感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析科研心得競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。

📝?稿件基本要求:

? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問(wèn)題

? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長(zhǎng)按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

·

總結(jié)

以上是生活随笔為你收集整理的Swin Transformer升级版来了!30亿参数,刷榜多项视觉任务的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。