當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

【深度学习】SETR：基于视觉 Transformer 的语义分割模型

發布時間：2025/3/12 pytorch 33 豆豆

生活随笔收集整理的這篇文章主要介紹了【深度学习】SETR：基于视觉 Transformer 的语义分割模型小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Visual?Transformer

Author：louwill

Machine Learning Lab

? ??

自從Transformer在視覺領域大火之后，一系列下游視覺任務應用研究也隨之多了起來。基于視覺Transformer的語義分割正是ViT應用最多的一個經典視覺任務之一。

在視覺Transformer介入語義分割之前，基于深度學習的語義分割是被以UNet為代表的CNN模型主導的。基于編解碼結構的FCN/UNet模型成為語義分割領域最主流的模型范式。本文介紹基于ViT的語義分割的第一個代表模型——SEgementation TRansformer (SETR)，提出以純Transformer結構的編碼器來代替CNN編碼器，改變現有的語義分割模型架構。

提出SETR的這篇論文為Rethinking Semantic Segmentation from a Sequence-to-Sequence??Perspective?with Transformers，發表于2021年3月份，是由復旦和騰訊優圖聯合提出的一個基于ViT的新型架構的語義分割模型。

SETR的基本結構

SETR的整體模型結構如圖1所示。

圖1 SETR結構

SETR的核心架構仍然是Encoder-Decoder的結構，只不過相比于傳統的以CNN為主導的編碼器結構，SETR用Transformer來進行替代。圖1中(a)圖是SETR的整體架構，可以看到編碼器是由純Transformer層構成。

SETR編碼器流程跟作為backbone的ViT模型較為一致。先對輸入圖像做分塊處理，然后對每個圖像分塊做塊嵌入并加上位置編碼，這個過程就將圖像轉換為向量序列。之后就是Transformer block，里面包括24個Transformer層，每個Transformer層都是由MSA+MLP+Layer Norm+殘差連接組成。

SETR的一個特色在于解碼器的設計。將2D的編碼器輸出向量轉換為3D特征圖之后，論文中給SETR設計了三種解碼器上采樣方法。第一種就是最原始的上采樣，論文中叫Naive upsampling，通過簡單的1x1卷積加上雙線性插值來實現圖像像素恢復。這種上采樣方法簡稱為SETR-Naive。

重點是第二種和第三種解碼器設計。第二種解碼器設計叫漸進式上采樣 (Progressive UPsampling)，作者認為一步到位式的上采樣可能會產生大量的噪聲，采樣漸進式的上采樣則可以最大程度上緩解這種問題。漸進式的上采樣在于，每一次上采樣只恢復上一步圖像的2倍，這樣經過4次操作就可以回復原始圖像。這種解碼設計簡稱為SETR-PUP，如圖1中的(b)圖所示。第三種解碼設計為多層次特征加總 (Multi-Level feature Aggregation, MLA)，這種設計跟特征金字塔網絡類似，如圖1中(c)圖所示。

表1是基于不同預訓練和backbone的SETR變體模型的參數量和效果展示。

表1 SETR模型細節

SETR訓練與實驗

SETR在主流的語義分割數據集上都做了大量實驗，包括Cityscapes、ADE20K和PASCAL Context等數據集。SETR在多個數據集上都取得了SOTA的結果，如表2和表3所示。

表2 SETR在ADE20K上的表現

表3 SETR在PASCAL Context上的表現

圖2是SETR在ADE20K數據集上的分割效果，左側列為FCN分割效果，右側列為SETR的分割效果。可以看到，SETR分割效果要明顯優于FCN。

總結

總體而言，SETR的幾個重要貢獻如下：

為基于FCN/UNet等CNN分割模型的語義分割提供了不同的思路，即基于序列的圖像分割視角。Transformer作為這種序列模型的一個實現實例，SETR充分的探索了ViT的分割能力。
設計了三種不同的解碼器上采樣方法，深入探索了不同的上采樣設計的像素恢復效果。
實驗證明了基于Transformer的語義分割能夠學習到超過FCN等CNN結構的語義表征。

但SETR也有諸多不足。跟ViT一樣，SETR要取得好的結果，對預訓練和數據集大小都有較大的依賴性。

參考資料： Zheng S, Lu J, Zhao H, et al. Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 6881-6890. 往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯溫州大學《機器學習課程》視頻本站qq群851320808，加入微信群請掃碼：

總結

以上是生活随笔為你收集整理的【深度学习】SETR：基于视觉 Transformer 的语义分割模型的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Win7旗舰版禁止修改文件属性的设置方法
下一篇：【深度学习】最新「深度学习社区发现」综述