日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

霸榜各大CV任务榜单,Swin Transformer横空出世!

發(fā)布時間:2025/3/8 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 霸榜各大CV任务榜单,Swin Transformer横空出世! 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1. ImageNet-1K的圖像分類

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

一元@煉丹筆記

最近朋友和我聊Swin Transformer,說霸榜了各大CV任務(wù)的榜單,一搜,發(fā)現(xiàn)該文章才出來不到兩周,趕緊趁熱趕學(xué)習(xí)一波!

之前計算機視覺相關(guān)的任務(wù)主要被CNN所統(tǒng)治。

  • 從AlexNet及其在ImageNet圖像分類挑戰(zhàn)方面的革命性表現(xiàn),CNN架構(gòu)已經(jīng)通過更大的規(guī)模,更廣泛的連接,以及更復(fù)雜的卷積形式而逐漸壯大。

自然語言處理(NLP)中網(wǎng)絡(luò)體系結(jié)構(gòu)的演變走了一條不同的道路,今天流行的體系結(jié)構(gòu)取而代之的是Transformer。

  • Transformer是為序列建模和轉(zhuǎn)換任務(wù)而設(shè)計的,因為它關(guān)注數(shù)據(jù)中的長期依賴性建模。它在語言領(lǐng)域的巨大成功促使研究人員研究它對計算機視覺的適應(yīng)性,最近它在某些任務(wù)上顯示了不錯的結(jié)果,特別是圖像分類和聯(lián)合視覺語言建模。

本文重點探討將Transformer從NLP轉(zhuǎn)移到CV的策略。我們先看二者的不同:

  • scale。與作為語言Transformer中處理的基本元素的單詞標(biāo)記不同,視覺元素在scale上可能有很大的差異,這是一個在目標(biāo)檢測等任務(wù)中受到關(guān)注的問題。在現(xiàn)有基于Transformer的模型中,tokens都是固定比例的,這種屬性不適合這些應(yīng)用。
  • 圖像中像素的分辨率比文本段落中的單詞高得多。

在本篇文章中,作者提出了一種新的視覺Transformer,稱為Swin Transformer,它可以作為計算機視覺的通用backbone。將Transformer從語言轉(zhuǎn)到視覺的過程中所面臨的挑戰(zhàn)來自于兩個領(lǐng)域之間的差異,例如視覺實體的規(guī)模變化很大,圖像中的像素與文本中的單詞相比分辨率很高。為了解決這些差異,本文提出了一個層次化的Transformer,其表示是用移位窗口計算的。

移位窗口方案通過將self-attention計算限制在非重疊的局部窗口上,同時允許跨窗口連接,從而提高了效率。這種分層結(jié)構(gòu)具有在不同尺度下建模的靈活性,并且相對于圖像大小具有線性計算復(fù)雜性。Swin-Transformer的這些特性使其能夠兼容廣泛的視覺任務(wù),包括:

  • 圖像分類ImageNet-1K上的準(zhǔn)確率為86.4 top-1;
  • 密集預(yù)測任務(wù),如目標(biāo)檢測(COCO test dev上的58.7 box AP和51.1 mask AP);
  • 語義分割(ADE20K val上的535 mIoU)。

它的效果超過了之前的最佳水平,COCO上的box-AP和mask-AP分別為+2.7和+2.6,ADE20K上的mask-AP和+3.2 mIOU,顯示了基于Transformer的模型作為視覺支柱的潛力。

存在許多視覺任務(wù),如語義分割,需要在像素級進行dense的預(yù)測,這對于高分辨率圖像上的Transformer來說是很困難的,因為它self-attention的計算復(fù)雜度是圖像大小的二次方。

為了克服這些問題,我們提出了一種通用的Transformer backbone,稱為Swin-Transformer,它構(gòu)造了層次化的特征映射,并且計算復(fù)雜度與圖像大小成線性關(guān)系。

如上圖所示,Swin-Transformer通過從小尺寸的面片(用灰色表示)開始,逐漸合并更深層次的Transformer層中的相鄰面片來構(gòu)造層次表示。有了這些分層特征映射,Swin-Transformer模型可以方便地利用高級技術(shù)進行dense預(yù)測,如特征金字塔網(wǎng)絡(luò)(FPN)或U-Net。線性計算復(fù)雜度是通過在分割圖像的非重疊窗口(紅色輪廓)內(nèi)局部計算自我注意來實現(xiàn)的。每個窗口中的面片數(shù)是固定的,因此復(fù)雜度與圖像大小成線性關(guān)系。這些優(yōu)點使得Swin-Transformer適合作為各種視覺任務(wù)的通用主干,與以前基于Transformer的體系結(jié)構(gòu)形成對比,后者產(chǎn)生單一分辨率的特征圖,并且具有二次復(fù)雜性。

Swin Transformer的一個關(guān)鍵設(shè)計元素是它在連續(xù)的self-attention之間的窗口分區(qū)的移動,如下圖所示。

移動的窗口橋接了前一層的窗口,提供了它們之間的連接,顯著增強了建模能力。這種策略對于真實世界的延遲也是有效的:一個窗口中的所有query patches都共享相同的key set,這有助于硬件中的內(nèi)存訪問。

相比之下,早期的基于滑動窗口的self-attention方法由于不同query像素的key集合不同,在一般硬件上的延遲較低。實驗結(jié)果表明,所提出的shifted window方法比傳統(tǒng)方法具有更低的延遲。

所提出的Swin Transformer在圖像分類、目標(biāo)檢測和語義分割等識別任務(wù)上取得了很好的效果。在這三個任務(wù)上,它的延遲時間與ViT/DeiT和ResNe(X)t模型相似,顯著優(yōu)于ViT/DeiT和ResNe(X)t模型。

Stage1

  • 首先通過像ViT一樣的分片模塊將輸入的RGB圖像分片成不重疊的patch。每個patch被視為一個“token”,其特征被設(shè)置為原始像素RGB值的串聯(lián)。
在我們的實現(xiàn)中,我們使用了4×4的面片大小,因此每個面片的特征維數(shù)為4×4×3=48。在這個原始值特征上應(yīng)用一個線性嵌入層,將其投影到任意維(表示為C)。

變化過的self-attention(Swin Transformer blocks)被應(yīng)用到這些patch token上。Transformer block保留了token的個數(shù)()并且使用了線性的Embedding。

Stage2

為了生成一個層次化的表示,當(dāng)網(wǎng)絡(luò)變得更深,token的數(shù)量會通過patches合并層而減少。第一塊拼接層連接了每組2×2相鄰的patch的特征,并在維級聯(lián)特征上應(yīng)用線性層。

這將token的數(shù)量減少了2×2=4的倍數(shù)(分辨率的2×降采樣),并且輸出維度設(shè)置為2C。之后應(yīng)用Swin Transformer block進行特征變換,分辨率保持在。

Stage3&4

將該過程重復(fù)兩次,輸出分辨率分別為和。這些階段共同產(chǎn)生一個層次表示,具有與典型卷積網(wǎng)絡(luò)相同的特征圖分辨率,例如VGG和ResNet。因此,所提出的架構(gòu)可以方便地取代現(xiàn)有方法中的主干網(wǎng)來執(zhí)行各種視覺任務(wù)。

Swin Transformer是將Transformer模塊中的標(biāo)準(zhǔn)multi-head self-attention(MSA)模塊替換為基于移動窗口,其它層保持不變。Swin Transformer由一個基于移位窗口的MSA模塊組成,然后是一個介于GELU非線性之間的2層MLP。在每個MSA模塊和每個MLP之前應(yīng)用LayerNorm(LN)層,在每個模塊之后應(yīng)用剩余連接。

標(biāo)準(zhǔn)Transformer體系結(jié)構(gòu)及其對圖像分類的自適應(yīng)都進行g(shù)lobal self-attention,其中計算了一個token和所有其他token之間的關(guān)系。全局計算導(dǎo)致token數(shù)量的二次復(fù)雜度,這使得它不適用于許多需要大量令牌進行密集預(yù)測或表示高分辨率圖像的視覺問題。

1. Self-attention in non-overlapped windows

2. Shifted window partitioning in successive blocks

基于窗口的自self-attention模塊缺乏跨窗口的連接,這限制了它的建模能力。為了在保持非重疊窗口計算效率的同時引入跨窗口連接,我們提出了一種移位窗口劃分方法,該方法在連續(xù)的Swin Transformer塊中交替使用兩種劃分配置。

如上圖所示,第一個模塊使用了一個從左上角像素開始的規(guī)則窗口劃分策略,第一個模塊采用將8×8 特征map平均劃分為2×2個4×4(M=4)的窗口。然后,下一模塊采用從上一層的窗口配置偏移的窗口配置,通過將窗口從規(guī)則分區(qū)的窗口置換像素。利用移位窗口劃分方法,連續(xù)的swin transformer塊被計算為:

  • W-MSA:使用regular窗口分區(qū)配置的基于window的multi-head self-attention
  • SW-MSA:使用移動的窗口分區(qū)配置的基于window的multi-head self-attention

移位窗口分割方法引入了前一層相鄰非重疊窗口之間的連接,被發(fā)現(xiàn)在圖像分類、目標(biāo)檢測和語義分割上是非常有效的。

在計算self-attention,此處我們引入一個相對位置bias:

我們觀察到與沒有這個偏差項或使用絕對位置嵌入的對應(yīng)項相比有顯著的改進。如[19]中所述,進一步向輸入中添加絕對位置嵌入會略微降低性能,因此在我們的實現(xiàn)中不采用這種方法。

在預(yù)訓(xùn)練中學(xué)習(xí)到的相對位置偏差也可以用來初始化模型,通過bi-cubic插值對不同窗口大小的模型進行微調(diào)。

我們建立了與ViTB/DeiT-B相似計算復(fù)雜度的模型Swin-B,并介紹了Swin-T、Swin-S和Swin-L,它們分別是模型大小和計算復(fù)雜度的0.25倍、0.5倍和2倍。

1. ImageNet-1K的圖像分類

  • 與最先進的ConvNets(RegNet和EfficientNet)相比,Swin Transformer有更好一點的速度精度trade-off。
  • 雖然RegNet和EfficientNet是通過徹底的架構(gòu)搜索獲得的,但所提出的Swin Transformer是從標(biāo)準(zhǔn)Transformer改編而來的,具有很強的潛力。
  • 對于Swin-B,ImageNet22K預(yù)訓(xùn)練比ImageNet-1K從頭開始的培訓(xùn)帶來了**1.8%~1.9%**的收益;
  • 與之前ImageNet-22K預(yù)訓(xùn)練的最佳結(jié)果相比,我們的模型實現(xiàn)了顯著更好的速度-精度折衷:Swin-B獲得86.0%的top-1精度,比ViT高2.0%,具有相似的推理吞吐量(84.7 vs.85.9 images/秒)和略低的FLOPs(47.0G vs.55.4G)。更大的Swin-L模型達到86.4%的top-1精度,略好于Swin-B模型。

2. COCO的目標(biāo)檢測


  • 與ResNet-50相比,Swin-T框架帶來了+3.4~4.2 box的AP增益,具有略大的模型大小、FLOPS和延遲;
  • Swin-Transformer可以拿到51.9 box-AP和45.0 mask-AP的高檢測精度,與ResNeXt101-64x4d相比,可以獲得+3.6 box-AP和+3.3mask-AP的顯著增益,ResNeXt101-64x4d具有相似的模型大小、觸發(fā)器和延遲
  • 在使用改進的HTC框架的52.3 box AP和46.0 mask AP的較高基線上,Swin-Transformer的增益也較高,分別為+4.1 box AP和+3.1 mask AP;
  • 使用級聯(lián)Mask R-CNN框架的DeiT-S的性能。Swin-T的結(jié)果是+2.5 box-AP和+2.3mask-AP高于DeiT-S,模型尺寸相似(86M對80M),推理速度顯著提高(15.3fps對10.4fps);
  • 我們的最佳模型在COCO test dev上實現(xiàn)了58.7 box AP和51.1 mask AP,超過了之前的最佳結(jié)果+2.7 box AP和+2.6 mask AP(DetectoRS)。

3. ADE20K的語義分割

  • 在計算成本相似的情況下,Swin-S比DeiT-S高出5.3 mIoU(49.3比44.0)。
  • 比ResNet-101高出4.4mIoU,比ResNeSt-101高出2.4 mIoU。我們的帶有ImageNet-22K預(yù)訓(xùn)練的Swin-L模型在val集上實現(xiàn)了53.5 mIoU,超過了以前最好的模型+3.2mIoU.

4. 解耦實驗

  • 在ImageNet-1K、COCO和ADE20K上,采用移位窗口劃分的Swin-T比采用單一窗口劃分的Swin-T在每個階段的精度都高出+1.1%top-1、+2.8 box AP/+2.2 mask AP和+2.8 mIoU。
  • 具有相對位置偏差的Swin-T在ImageNet-1K上產(chǎn)生+1.2%/+0.8%的top-1精度;在COCO上+1.3/+1.5 box AP和+1.1/+1.3 mask AP;以及+2.3/+2.9 mIoU在ADE20K上分別與那些沒有位置編碼和絕對位置嵌入的相關(guān),
  • 相對位置偏差的有效性。同時也注意到,雖然絕對位置嵌入的加入提高了圖像分類的準(zhǔn)確率(+0.4%),但它不利于目標(biāo)檢測和語義分割;

  • 我們的cyclic實現(xiàn)比單純的填充更具硬件效率,特別是對于更深層的階段。總的來說,它可以為Swin-T、Swin-S和Swin-B帶來13%、18%和18%的加速;
  • 構(gòu)建在移動窗口上的Swin-Transformer架構(gòu)分別比構(gòu)建在滑動窗口上的Swin-T、Swin-S和Swin-B快4.1/1.5、4.0/1.5和3.6/1.5倍;
  • 與Performer相比,Performer是速度最快的Transformer體系結(jié)構(gòu)之一,我們的基于shifted window的self-attention計算和整體Swin-Transformer體系結(jié)構(gòu)稍快,同時與使用Swin-T的ImageNet-1K上的Performer相比,提升了+2.3%的top-1精度。

本文提出了一種新的視覺Transformer Swin-Transformer,它產(chǎn)生了一種層次化的特征表示,其計算復(fù)雜度與輸入圖像的大小成線性關(guān)系。Swin-Transformer在COCO目標(biāo)檢測和ADE20K語義分割方面達到了最先進的性能,顯著超過了

以前的最佳方法。我們希望Swin-Transformer在各種視覺問題上的強大性能將促進視覺和語言信號的統(tǒng)一建模。

作為Swin-Transformer的一個關(guān)鍵元素,基于移位窗口的自我注意被證明是解決視覺問題的有效方法,我們也期待著研究它在自然語言處理中的應(yīng)用。

霸榜各大CV任務(wù)榜單,Swin Transformer橫空出世!

總結(jié)

以上是生活随笔為你收集整理的霸榜各大CV任务榜单,Swin Transformer横空出世!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产成人精品视频在线 | 精品久久久久久久久久岛国gif | 青青草成人av | 熟妇人妻中文字幕无码老熟妇 | 日韩精品1区2区3区 欧美一本 | 国产天堂网 | 亚洲自拍偷拍综合 | 免费观看污视频 | 久久久久国产 | 日韩精品一区二区三区在线 | 99综合网 | 波多野结衣中文字幕在线播放 | 在线观看9.1 | 亚洲小视频在线播放 | 激情五月视频 | 精品66 | 国产视频一区二区视频 | 亚洲AV无码成人精品区先锋 | 亚洲欧美另类一区 | 在线免费观看黄色网址 | 亚洲精品一二三四区 | 五月涩| 四虎影院新网址 | 欧美亚色 | 欧美三级小视频 | jul023被夫上司连续侵犯 | 日韩av手机在线免费观看 | 高清av在线| 菲律宾av | 18xxxx日本| www久久com| 亚洲第一视频 | 免费一级一片 | 久久这里有精品 | 美女网站免费观看 | 激情欧美一区 | 欧美成人激情在线 | 伊人97 | av官网在线观看 | √天堂中文官网8在线 | 国产一区2| 首尔之春在线观看 | 激情小说中文字幕 | 成人精品亚洲 | 午夜视频免费观看 | 日韩欧美国产高清 | 在线免费观看h片 | 人人搞人人 | 黄色草逼视频 | 日本一区不卡在线观看 | 精品人妻一区二区三区四区在线 | 日本少妇全体裸体洗澡 | 高清av免费观看 | caoprom在线 | 久久96视频 | 不卡av网站 | 网站一区二区 | 在线小视频你懂的 | 日本涩涩视频 | 香蕉视频| 亚洲最新在线 | 亚洲熟伦熟女新五十路熟妇 | 99re国产 | 国产精品白浆一区二小说 | 少妇被又大又粗又爽毛片久久黑人 | 亚洲精品字幕在线观看 | 电车痴汉在线观看 | 欧美成人一区在线观看 | 青青99 | 国内精品久 | 欧美精品123 | 爱爱视频一区二区 | 国产黄色片免费在线观看 | 麻豆传媒网站在线观看 | 日本免费在线观看视频 | 日韩精品视频三区 | 国产情侣一区 | 久久久久久久色 | 精品人伦一区二区三电影 | 日韩一级在线观看 | 国产欧美日韩精品一区 | 可以免费看的黄色 | 亚洲网站色 | 成人中文在线 | 精品欧美激情精品一区 | 韩日一区二区 | 国产女人高潮时对白 | 国产黑丝91 | 夜夜嗨网站 | 成人午夜sm精品久久久久久久 | 波多野结衣中文字幕一区二区三区 | ass极品国模人体欣赏 | 亚洲综合大片69999 | 久久久久久久久久一区二区 | 91视频地址 | 成人免费毛片高清视频 | 熟女人妻一区二区三区免费看 | 日本污视频在线观看 | 牛牛影视一区二区三区 |