當(dāng)前位置：首頁(yè) >

Transformer在细粒度分类上的应用

發(fā)布時(shí)間：2023/12/20 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 Transformer在细粒度分类上的应用小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

TransFG ：Transformer在細(xì)粒度分類(lèi)上的應(yīng)用

摘要
1.引言
2.相關(guān)工作
- ==細(xì)粒度視覺(jué)分類(lèi)==
**==Transformer==**
3.方法
- 3.1作為特征提取的vision transformer
- 3.2. TransFG Architecture
- - 區(qū)域選擇模塊
  - 3.2.2 對(duì)比特征學(xué)習(xí)
4.實(shí)驗(yàn)
- 實(shí)驗(yàn)設(shè)置
- 4.1 實(shí)驗(yàn)設(shè)計(jì)
- - **實(shí)施細(xì)節(jié)**.
- 4.2 **定量分析**
- 4.3.消融實(shí)驗(yàn)
- **4.4.定性分析**
5.結(jié)論

論文： TransFG: A Transformer Architecture for Fine-grained Recognition

首個(gè)驗(yàn)證 vision transformer 在細(xì)粒度視覺(jué)分類(lèi)上的有效性工作，為占主導(dǎo)地位的CNN 骨干與 RPN 模型設(shè)計(jì)提供了一個(gè)替代方案。文章中介紹了 TransFG，一種用于細(xì)粒度視覺(jué)分類(lèi)的新型神經(jīng)架構(gòu)，它可以自然地聚焦于物體中最具分辨力的區(qū)域，并在多個(gè)標(biāo)準(zhǔn)基準(zhǔn)上實(shí)現(xiàn) SOTA 性能。其中可視化結(jié)果的呈現(xiàn)，說(shuō)明了 TransFG 能夠準(zhǔn)確地捕捉到鑒別性的圖像區(qū)域。

摘要

現(xiàn)有方法

目前，處理細(xì)粒度分類(lèi)問(wèn)題主要是通過(guò)聚焦于如何定位最有區(qū)別的圖像區(qū)域并依靠它們來(lái)提高網(wǎng)絡(luò)捕捉細(xì)微變化的能力。這些工作大多是通過(guò)重用主干網(wǎng)絡(luò)來(lái)提取選定區(qū)域的特征來(lái)實(shí)現(xiàn)的。

存在問(wèn)題

這種策略不可避免地使整個(gè)過(guò)程變得復(fù)雜，并要求預(yù)測(cè)框包含對(duì)象的絕大大部分。

TransFG

transformer的自注意力機(jī)制將每個(gè)patch token鏈接到分類(lèi)token，注意力鏈接的強(qiáng)度可以被直觀地認(rèn)為是表征重要性的指標(biāo)。
在這項(xiàng)工作中，我們提出了一種新的基于transformer的框架：TransFG，其中我們將transformer的所有原始注意力權(quán)重集成到一個(gè)attention map中，以指導(dǎo)網(wǎng)絡(luò)有效和準(zhǔn)確地選擇有區(qū)別的圖像塊并計(jì)算它們之間的關(guān)系。應(yīng)用對(duì)比損失來(lái)進(jìn)一步擴(kuò)大相似子類(lèi)的特征表示之間的距離。

效果

在五個(gè)流行的細(xì)粒度benchmark上進(jìn)行實(shí)驗(yàn)來(lái)證明TransFG的效果:CUB-200-2011, Stanford Cars, Stan-ford Dogs, NABirds and iNat2017 ，在這些基準(zhǔn)上，實(shí)現(xiàn)了SOTA。

1.引言

目前來(lái)說(shuō)，為了避免人工密集的區(qū)域標(biāo)簽，這個(gè)領(lǐng)域致力于圖片層次標(biāo)簽的弱監(jiān)督的方法。方法可以分為兩大類(lèi)：局部區(qū)域定位和特征編碼。與特征編碼方法相比，定位方法的優(yōu)點(diǎn)在于它們明確地捕捉不同子類(lèi)之間的細(xì)微差別，這種差別更具有解釋性，并且通常產(chǎn)生更好的結(jié)果。
早期定位方法依賴(lài)于局部標(biāo)簽去定位有差別的區(qū)域，現(xiàn)在主要采用區(qū)域提議網(wǎng)絡(luò)(RPN)來(lái)提取包含差別區(qū)域的bbox。在獲得所選擇的圖像區(qū)域之后，它們被重新調(diào)整到預(yù)定義的大小，并再次通過(guò)主干網(wǎng)絡(luò)，以獲得信息豐富的局部特征。典型的策略是單獨(dú)使用這些局部特征進(jìn)行分類(lèi)，并采用秩損失來(lái)保持bbox的質(zhì)量和它們的最終概率輸出之間的一致性。但是，該機(jī)制忽略了所選區(qū)域之間的關(guān)系，不可避免使得RPN預(yù)測(cè)的bbox包含大部分對(duì)象的邊界框，以便獲得正確的分類(lèi)結(jié)果。有時(shí)這些邊界框甚至可以包含大面積的背景，導(dǎo)致混亂。此外，與主干網(wǎng)相比，RPN模塊具有不同的優(yōu)化目標(biāo)，這使得網(wǎng)絡(luò)更難訓(xùn)練，主干網(wǎng)的重用使得整個(gè)算法流程變得復(fù)雜。
最近，vision transformer在傳統(tǒng)的分類(lèi)任務(wù)中取得了巨大的成功，這表明利用其固有的注意機(jī)制將transformer直接應(yīng)用于圖像塊序列可以捕獲圖像中的重要區(qū)域，從而便于分類(lèi)。一系列關(guān)于下面任務(wù)的擴(kuò)展工作，如對(duì)象檢測(cè)，語(yǔ)義分割，證實(shí)了vision transformer捕捉全局和局部特征的強(qiáng)大能力。
我們?cè)谖鍌€(gè)流行的細(xì)粒度視覺(jué)分類(lèi)基準(zhǔn)(CUB-200-2011，斯坦福汽車(chē)，斯坦福狗，NABirds，iNat 2017年)上廣泛評(píng)估了我們的模型。性能比較的概述可以在圖1中看到，在大多數(shù)數(shù)據(jù)集上，我們的轉(zhuǎn)換優(yōu)于現(xiàn)有的具有不同主干的SOTA CNN方法。總之，在這項(xiàng)工作中做出了幾項(xiàng)重要貢獻(xiàn):

第一個(gè)驗(yàn)證vision transformer在細(xì)粒度視覺(jué)分類(lèi)上的有效性，它提供了一種替代具有RPN模型設(shè)計(jì)的CNN主干的方法。
引入了TransFG，一種新的用于細(xì)粒度視覺(jué)分類(lèi)的神經(jīng)體系結(jié)構(gòu)，它自然地聚焦于對(duì)象的最有區(qū)別的區(qū)域，并在幾個(gè)標(biāo)準(zhǔn)基準(zhǔn)上實(shí)現(xiàn)SOTA性能。
可視化結(jié)果展示了我們的轉(zhuǎn)換能夠準(zhǔn)確地捕捉有區(qū)別的圖像區(qū)域，并幫助我們更好地理解它如何做出正確的預(yù)測(cè)。

2.相關(guān)工作

簡(jiǎn)要回顧了現(xiàn)有的關(guān)于細(xì)粒度視覺(jué)分類(lèi)和transformer的工作。

細(xì)粒度視覺(jué)分類(lèi)

已經(jīng)做了許多工作來(lái)解決細(xì)粒度視覺(jué)分類(lèi)的問(wèn)題，它們可以大致分為兩類(lèi):定位方法和特征編碼方法。前者側(cè)重于訓(xùn)練一個(gè)檢測(cè)網(wǎng)絡(luò)來(lái)定位有區(qū)別的部分區(qū)域，并重用它們來(lái)執(zhí)行分類(lèi)。后者旨在通過(guò)計(jì)算高階信息或?qū)ふ覍?duì)比對(duì)之間的關(guān)系來(lái)學(xué)習(xí)更多的信息特征。

定位方法
以往，利用區(qū)域標(biāo)簽來(lái)監(jiān)督定位過(guò)程的學(xué)習(xí)過(guò)程。然而，由于這樣的標(biāo)注是昂貴的并且通常是不可獲得的，如今僅具有圖像級(jí)標(biāo)簽的弱監(jiān)督區(qū)域引起了更多的關(guān)注。
He等人[21]提出了一個(gè)復(fù)雜的強(qiáng)化學(xué)習(xí)程序，以估計(jì)如何選擇有區(qū)別的圖像區(qū)域及其數(shù)量。
Ge等人[16]交替地使用基于掩蔽的CNN和基于CRF的分割來(lái)提取對(duì)象實(shí)例和區(qū)分區(qū)域。Yang等人[47]基于區(qū)域特征構(gòu)建的數(shù)據(jù)庫(kù)，對(duì)全局分類(lèi)結(jié)果進(jìn)行重新排序。
然而，這些方法都需要一個(gè)特殊設(shè)計(jì)的模塊來(lái)提出潛在的區(qū)域，并且這些選擇的區(qū)域需要通過(guò)主干再次轉(zhuǎn)發(fā)以進(jìn)行最終分類(lèi)。此外，一些預(yù)測(cè)的區(qū)域往往包含整個(gè)對(duì)象，這是不夠具有區(qū)別性。
特征編碼
該方法一個(gè)方面集中于豐富特征表示以獲得更好的分類(lèi)結(jié)果。
Yu等人[50]提出了一個(gè)分層框架來(lái)做跨層雙線性池。
Zheng等人[53]采用群卷積的思想，首先根據(jù)信道的語(yǔ)義將信道分成不同的群，然后在每個(gè)群內(nèi)進(jìn)行雙線性合并，而不改變維數(shù)，從而可以直接集成到任何已有的主干中。
Zhuang等人[56]提出構(gòu)建對(duì)比輸入批次并計(jì)算它們之間的線索，以迫使特征包含這種區(qū)別性信息。然而，這些方法通常是不可解釋的，這樣的方法不知道是什么使得模型區(qū)分具有細(xì)微差異的子類(lèi)別。

Transformer

transformer和自我注意模型極大地促進(jìn)了自然語(yǔ)言處理和機(jī)器翻譯的研究[8，9，41，48]。受此啟發(fā)，最近的許多研究試圖將transformer應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域。最初，transformer用于處理通過(guò)CNN主干網(wǎng)絡(luò)提取的視頻的連續(xù)特征。Girdhar等人[18]利用transformer的一種變體來(lái)聚合與視頻中特定人相關(guān)的上下文線索。后來(lái)，變壓器模型進(jìn)一步擴(kuò)展到其他流行的計(jì)算機(jī)視覺(jué)任務(wù)，如目標(biāo)檢測(cè)[3]，分割[46，4，51]，目標(biāo)跟蹤[36]。最近，純transformer模型越來(lái)越受歡迎。ViT [11]是第一個(gè)證明（將純transformer直接應(yīng)用于一系列圖像塊）可以在圖像分類(lèi)方面產(chǎn)生最先進(jìn)性能。在此基礎(chǔ)上，鄭等人[55]提出利用ViT作為分割的編碼器。He等人[20]提出了TransReID，它將邊信息與JPM一起嵌入到transformer中，以提高對(duì)象重識(shí)別的性能。在這項(xiàng)工作中，我們將ViT擴(kuò)展到細(xì)粒度的視覺(jué)分類(lèi)，并展示了它的有效性。

3.方法

3.1作為特征提取的vision transformer

圖像序列化。基于ViT，我們首先將輸入圖像預(yù)處理成一系列展開(kāi)的面片 $x_p$ 。然而，原始的分割方法將圖像分割成不重疊的小塊，這損害了局部鄰近結(jié)構(gòu)，尤其是在分割有區(qū)別的區(qū)域時(shí)的時(shí)候。為了緩解這個(gè)問(wèn)題，我們提出用滑動(dòng)窗口生成重疊的面片。具體來(lái)說(shuō)，我們用分辨率 $H ? W$ 表示輸入圖像，圖像塊的大小為 $P$ ，滑動(dòng)窗口的步長(zhǎng)為 $S$ 。因此，輸入圖像將被分成N個(gè)塊，其中 $N_H*N_W=[\frac{H-P+S}{S}]*[\frac{W-P+S}{S}]\quad\quad\quad (1)$ 這樣，兩個(gè)相鄰的塊共享一個(gè)大小為 $(P ? S) ? P$ 的重疊區(qū)域，這有助于更好地保留局部區(qū)域信息。通常來(lái)說(shuō)，步長(zhǎng)S越小，性能越好。但是減少S的同時(shí)會(huì)加大計(jì)算成本，所以這里需要做一個(gè)權(quán)衡。
批量嵌入 我們使用可訓(xùn)練的線性投影將矢量化的面片 $x_P$ 映射到潛在的三維嵌入空間中。可學(xué)習(xí)的位置嵌入被添加到補(bǔ)片嵌入中，以保留如下位置信息:
$z0=[xp1E,xp2E,...,xpNE]+Epos(2)z_0=[x^1_pE,x^2_pE,...,x^\N_pE]+E_{pos} \quad\quad\quad\quad (2)$
其中 $N$ 是圖像批量的數(shù)量， $E∈R(P2?C)?DE\in R^{(P^2-C)*D}$ 是批量嵌入投影， $Epos∈RN+DE_{pos}\in R^{N+D}$ 代表位置嵌入。
Transformer編碼器包含 $L$ 層多頭自我注意(MSA)和多層感知器(MLP)塊。因此，第 $l$ 層的輸出可以寫(xiě)如下:

其中 $LN(?)LN(\cdot)$ 表示層歸一化操作， $z_l$ 表示編碼圖像表示。 $V i T$ 利用最后一個(gè)編碼器層 $zL0z^0_L$ 的第一個(gè)token作為全局特征的表示，并將其轉(zhuǎn)發(fā)給分類(lèi)器頭，以獲得最終的分類(lèi)結(jié)果，而不考慮存儲(chǔ)在剩余token中的潛在信息。

3.2. TransFG Architecture

而我們?cè)诘?節(jié)的實(shí)驗(yàn)表明，純Vision Transformer可以直接應(yīng)用于細(xì)粒度的視覺(jué)分類(lèi)，并取得令人印象深刻的結(jié)果。它沒(méi)有很好地捕獲 $F G V C$ 所需的位置信，為此，我們提出了區(qū)域選擇模塊，并應(yīng)用對(duì)比特征學(xué)習(xí)來(lái)擴(kuò)大相似子類(lèi)別之間的表征距離。我們提出的transformer框架如圖2所示:
圖像被分割成小塊(此處顯示了不重疊的分割)，并被投影到嵌入空間中。變壓器編碼器的輸入包括批量嵌入和可學(xué)習(xí)的位置嵌入。在最后一個(gè)transformer層之前，區(qū)域選擇模塊(PSM)來(lái)選擇對(duì)應(yīng)于區(qū)別性圖像塊的標(biāo)記，并且僅使用這些選擇的tokens作為輸入。最終分類(lèi)標(biāo)記上的交叉熵?fù)p失和對(duì)比損失有助于訓(xùn)練TransFG。

區(qū)域選擇模塊

細(xì)粒度視覺(jué)分類(lèi)中最重要的問(wèn)題之一是準(zhǔn)確定位區(qū)分區(qū)域，這些區(qū)域解釋了相似區(qū)域之間的細(xì)微差異。
圖3:CUB-2002011數(shù)據(jù)集的一對(duì)confusing的實(shí)例。模型需要具備捕捉細(xì)微差異的能力，以便對(duì)其進(jìn)行正確分類(lèi)。第二列顯示了整體注意力圖和我們的轉(zhuǎn)換方法的兩個(gè)選定標(biāo)記。最好用彩色觀看。子類(lèi)。以CUB-200-2011數(shù)據(jù)集的一對(duì)令人困惑的圖像為例，如圖3所示。為了區(qū)分這兩種鳥(niǎo)類(lèi)，模型需要能夠捕捉非常小的差異，即眼睛和喉嚨的顏色。
區(qū)域提議網(wǎng)絡(luò)和弱監(jiān)督分割策略被廣泛地引入到傳統(tǒng)的基于聚類(lèi)的方法中來(lái)解決這個(gè)問(wèn)題。vision transformer模型與生俱來(lái)的多頭注意力機(jī)制非常適合這里。為了充分利用注意力信息，我們將輸入更改到最后一個(gè)transformer層。假設(shè)模型有 $K$ 個(gè)自注意力頭，輸入到最后一層的隱藏特征表示為 $zL?1=[zL?10；zL?11,zL?12,???,zL?1N]z_{L-1} =[z^0_{ L-1}；z^1_{ L-1},z^2_{ L-1},\cdot\cdot\cdot,z^N_{ L-1}]$ 前面各層的注意力權(quán)重可寫(xiě)如下:

由于嵌入缺乏標(biāo)記可識(shí)別性，原始注意力權(quán)重不一定對(duì)應(yīng)于輸入標(biāo)記的相關(guān)重要性，特別是對(duì)于模型的更高層。為此，我們建議整合所有先前層的注意力權(quán)重。具體來(lái)說(shuō)，我們遞歸地將矩陣乘法應(yīng)用于所有層中的原始注意力權(quán)重，如下所示

由于 $αfianl\alpha_{fianl}$ 最終能捕捉到信息是如何從輸入層傳播到更高層的嵌入層，因此與單層原始注意力權(quán)重 $αL?1\alpha_{L-1}$ .相比，它是選擇區(qū)分區(qū)域的更好選擇。然后，關(guān)于最后的在 $αL?1\alpha_{L-1}$ 中的K個(gè)不同注意力頭，我們選擇最大值（ $A1,A2,???,AkA_1,A_2,\cdot\cdot\cdot,A_k$ ）的索引。這些位置被用作我們的模型的索引，以提取 $z_{L-1}$ 中的相應(yīng)標(biāo)記。最后，我們將選擇的標(biāo)記和分類(lèi)標(biāo)記連接起來(lái)作為輸入序列，表示為: $zlocal=[zL?10;zL?1A1,???,zL?1Ak](8)z_{local}=[z^0_{L-1};z^{A_1}_{L-1},\cdot\cdot\cdot, z^{A_k}_{L-1}]\quad\quad\quad(8)$
通過(guò)將原始的整個(gè)輸入序列替換為對(duì)應(yīng)于信息區(qū)域的標(biāo)記，并將分類(lèi)標(biāo)記作為輸入連接到最后一個(gè)transformer層，我們不僅保留了全局信息，還強(qiáng)制最后一個(gè)transformer層去關(guān)注不同子類(lèi)別之間的細(xì)微差異，同時(shí)在一個(gè)超類(lèi)中放棄了像back ground or common features之類(lèi)的區(qū)分度較低的區(qū)域。

3.2.2 對(duì)比特征學(xué)習(xí)

在ViT之后，我們?nèi)匀徊捎肞SM模塊的第一個(gè)token $z_i$ 進(jìn)行分類(lèi)。簡(jiǎn)單的交叉熵?fù)p失不足以完全監(jiān)督特征的學(xué)習(xí)，因?yàn)樽宇?lèi)別之間的差異可能非常小。為此，我們采用了對(duì)比損失 $L_{con}$ ，它使對(duì)應(yīng)于不同標(biāo)簽的分類(lèi)標(biāo)記的相似性最小化，并使具有相同標(biāo)簽 $y$ 的樣本的分類(lèi)標(biāo)記的相似性最大化。為了防止損失被easy negatives所支配(具有很小的相似性不同類(lèi)別的樣本)，引入了恒定的裕度α，使得只有相似性大于α的否定對(duì)才有助于損失 $L_{con}$ 。
形式上，一批大小為N的對(duì)比損失表示為:

其中 $z_i$ 和 $z_j$ 經(jīng)過(guò) $l_2$ 一化預(yù)處理， $S i m (z i ， z j)$ 為 $z_i$ 和 $z_j$ 的余弦相似度。
總之，我們的模型是用交叉熵?fù)p失 $L_{cross}$ 對(duì)比損失 $L_{con}$ 之和來(lái)訓(xùn)練的，它可以表示為:

其中 $L_{cross(y，y^’)}$ 是預(yù)測(cè)標(biāo)簽 $y^‘$ 和真實(shí)標(biāo)簽y之間的交叉熵?fù)p失。

4.實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

4.1節(jié)中的數(shù)據(jù)集和訓(xùn)練超參數(shù)。

4.2節(jié)給出了定量分析，

4.3節(jié)給出了消融研究。

4.4節(jié)中進(jìn)一步給出了定性分析和可視化結(jié)果。

4.1 實(shí)驗(yàn)設(shè)計(jì)

數(shù)據(jù)集 我們基于五個(gè)廣泛使用的細(xì)粒度基準(zhǔn)來(lái)評(píng)估我們提出的TransFG，即CUB-200-2011 [42]、斯坦福汽車(chē)[27]、斯坦福狗[25]、NABirds [40]和iNat 2017[22]。類(lèi)別號(hào)和數(shù)據(jù)拆分等詳細(xì)信息總結(jié)如下：

實(shí)施細(xì)節(jié).

我們?cè)趇Nat 2017將輸入圖像的大小調(diào)整為448 * 448，除了 304 *
304，以進(jìn)行公平比較(隨機(jī)裁剪用于訓(xùn)練，中心裁剪用于測(cè)試)。

我們將圖像分割成大小為16的小塊，滑動(dòng)窗口的步長(zhǎng)設(shè)置為12。因此，等式1

N_H*N_W=[\frac{H-P+S}{S}]*[\frac{W-P+S}{S}]\quad\quad\quad (1)

中的H，W，P，S分別為448，448，16，12。
等式9中
中的裕量α被設(shè)置為0.4。

數(shù)據(jù)增強(qiáng)采用隨機(jī)水平翻轉(zhuǎn)和自動(dòng)調(diào)整（Random horizontal flipping and Auto Aug-ment）[7]。

從ImageNet21k上預(yù)訓(xùn)練的官方ViT-B 16模型加載中間權(quán)重。批量大小設(shè)置為16。采用了動(dòng)量為0.9的SGD優(yōu)化器。學(xué)習(xí)率初始化為0.03，斯坦福狗數(shù)據(jù)集為0.003，iNat2017年的數(shù)據(jù)集為0.01。

我們采用余弦退火刪減作為優(yōu)化器的調(diào)度器。

所有實(shí)驗(yàn)都是使用四個(gè)Nvidia Tesla V100 GPUs，使用PyTorch工具箱和APEX，使用FP16訓(xùn)練。

4.2 定量分析

我們將我們提出的方法與上述細(xì)粒度數(shù)據(jù)集上最先進(jìn)的工作進(jìn)行了比較。CUB-200-2011和斯坦福汽車(chē)的實(shí)驗(yàn)結(jié)果如表2所示。從結(jié)果來(lái)看，我們發(fā)現(xiàn)我們的方法在CUB數(shù)據(jù)集上優(yōu)于以前的所有方法，并在斯坦福汽車(chē)上取得了競(jìng)爭(zhēng)性能。
具體來(lái)說(shuō)，表2的第三列顯示了CUB-200-2011的比較結(jié)果。與迄今為止的最佳結(jié)果StackedLSTM [17]相比，我們的TransFG在Top-1指標(biāo)上提高了1.3%；與基礎(chǔ)框架ViT相比提高了1.4%。

NTS-Net網(wǎng)[49]利用秩損失（ranking loss）來(lái)保持的學(xué)習(xí)區(qū)域特征的一致性。在[10]中采用多個(gè)ResNet-50作為多個(gè)分支，這大大增加了復(fù)雜性。還值得注意的是，Stack LSTM是一個(gè)非常混亂的多階段培訓(xùn)模型，這阻礙了實(shí)際應(yīng)用的可用性，而我們的TransFG保持了框架和培訓(xùn)策略的簡(jiǎn)單性。

表2的第四列顯示了斯坦福汽車(chē)的結(jié)果。我們的方法優(yōu)于大多數(shù)現(xiàn)有的方法，但比PMG [12]和API-Net [56]的性能差，它們誤差小。我們認(rèn)為，原因可能是斯坦福汽車(chē)數(shù)據(jù)集的圖像比其他數(shù)據(jù)集具有更簡(jiǎn)單和更清晰的背景，因此它需要更少的工作來(lái)定位用于分類(lèi)子類(lèi)別的區(qū)分區(qū)域。我們可以觀察到，最近的方法在這個(gè)數(shù)據(jù)集上獲得了非常相似的結(jié)果。然而，即使具有這一特性，我們的Transformer始終比標(biāo)準(zhǔn)的ViT車(chē)型提高1.1%。

表3斯坦福狗的實(shí)驗(yàn)結(jié)果。與斯坦福汽車(chē)相比，斯坦福狗是一個(gè)更具挑戰(zhàn)性的數(shù)據(jù)集，因?yàn)樗哪承┪锓N之間存在更細(xì)微的差異，同一類(lèi)別的樣本差異也很大。只有少數(shù)方法在這個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)試，我們的TransFG優(yōu)于所有方法。API-Net [56]通過(guò)精心構(gòu)建批量數(shù)據(jù)并學(xué)習(xí)它們的相互特征向量和殘差，學(xué)會(huì)捕捉細(xì)微差異。盡管ViT [11]在很大程度上優(yōu)于其他方法，但是我們的TransFG實(shí)現(xiàn)了92.3%的準(zhǔn)確率，比SOTA的準(zhǔn)確率高2.0%。

表4 NABirds是一個(gè)大得多的鳥(niǎo)類(lèi)數(shù)據(jù)集，圖像數(shù)量巨大，而且還有355個(gè)以上的類(lèi)別，這使得細(xì)粒度的視覺(jué)分類(lèi)任務(wù)更具挑戰(zhàn)性。我們?cè)诒?中顯示了我們的結(jié)果。我們觀察到，大多數(shù)方法(要么通過(guò)為不同的分支開(kāi)發(fā)多個(gè)主干)，要么采用相當(dāng)深的CNN結(jié)構(gòu)來(lái)提取更好的特征，從而獲得良好的結(jié)果。雖然純ViT [11]可以直接達(dá)到89.9%的精度，但與ViT相比，我們的TransFG不斷獲得0.9%的性能增益，達(dá)到90.8%的精度，比SOTA高出1.6%。

表5 iNat2017是一個(gè)用于細(xì)粒度物種識(shí)別的大規(guī)模數(shù)據(jù)集。由于多作物、多尺度和多階段優(yōu)化的計(jì)算復(fù)雜性，大多數(shù)以前的方法沒(méi)有報(bào)告2017年的結(jié)果。憑借我們模型管道的簡(jiǎn)單性，我們能夠擴(kuò)展Transformer大數(shù)據(jù)集，并評(píng)估性能，如表5所示。該數(shù)據(jù)集對(duì)于挖掘有意義的對(duì)象部分是非常具有挑戰(zhàn)性的，并且背景也非常復(fù)雜。我們發(fā)現(xiàn)，在這些具有挑戰(zhàn)性的大型數(shù)據(jù)集上，Vision transformer結(jié)構(gòu)的性能遠(yuǎn)遠(yuǎn)優(yōu)于ResNet結(jié)構(gòu)。ViT比ResNet152高出近10%，在2018年和2019年也可以觀察到類(lèi)似的現(xiàn)象。我們的TransFG是唯一一種在輸入大小為304的情況下達(dá)到70%以上精度的方法，并且以3.5%的大幅度優(yōu)于SOTA。

4.3.消融實(shí)驗(yàn)

我們對(duì)我們的TransFG pipeline進(jìn)行消融研究，以分析其變體如何影響細(xì)粒度的視覺(jué)分類(lèi)結(jié)果。所有消融研究都是在CUB-2002011數(shù)據(jù)集上進(jìn)行的，而同樣的現(xiàn)象也可以在其他數(shù)據(jù)集上觀察到。我們?cè)u(píng)估了以下設(shè)計(jì)的影響:重疊貼片、區(qū)域選擇模塊、對(duì)比速度和結(jié)果分析。

圖像塊分割方法的影響。我們通過(guò)標(biāo)準(zhǔn)的非重疊面片分割實(shí)驗(yàn)來(lái)研究重疊面片分割方法的影響。如表6所示，在純vision transformer和改進(jìn)的轉(zhuǎn)換框架上，重疊分割方法帶來(lái)了一致的改進(jìn)，即兩個(gè)框架都有0.2%的改進(jìn)。由此帶來(lái)的額外計(jì)算成本也是可以承受的，如第四列所示。

區(qū)域選擇模塊的影響。如表7所示，通過(guò)**選擇模塊(PSM)**選擇有區(qū)別的區(qū)域標(biāo)記作為最后一個(gè)transformer層的輸入，模型的性能從90.3%提高到91.0%。我們認(rèn)為，這是因?yàn)橥ㄟ^(guò)這種方式，我們將最具區(qū)別性的tokens作為輸入進(jìn)行采樣，這明確地丟棄了一些無(wú)用的tokens，并迫使網(wǎng)絡(luò)從重要的部分學(xué)習(xí)。

對(duì)比損失的影響。ViT和TransFG框架分別在有無(wú)對(duì)比損失時(shí)的性能比較，以驗(yàn)證其有效性。我們觀察到，在有對(duì)比損失的情況下，模型獲得了很大的性能增益。定量地說(shuō)，它將ViT的準(zhǔn)確率從90.3%提高到90.7%，將TransFG的準(zhǔn)確率從91.0%提高到91.5%。我們認(rèn)為，這是因?yàn)閷?duì)比損失可以有效地?cái)U(kuò)大相似子類(lèi)別之間的表征距離，減少相同類(lèi)別之間的表征距離，這可以從圖4中混淆矩陣的比較中清楚地看到。

余量α的影響。等式9中裕度α的不同設(shè)置結(jié)果如表9所示。我們發(fā)現(xiàn)，較小的α值會(huì)導(dǎo)致訓(xùn)練信號(hào)以easy negative為主，從而降低性能，而較大的α值會(huì)阻礙模型學(xué)習(xí)足夠的信息來(lái)增加hard negative的距離。根據(jù)經(jīng)驗(yàn)，我們?cè)趯?shí)驗(yàn)中發(fā)現(xiàn)0.4是α的最佳值。

4.4.定性分析

我們?cè)?strong>圖5的四個(gè)基準(zhǔn)上顯示了Transformer的可視化結(jié)果。我們從每個(gè)數(shù)據(jù)集中隨機(jī)抽取三幅圖像。呈現(xiàn)了兩種可視化。圖5的第一行和第三行示出了選定的tokens位置。為了獲得更好的可視化結(jié)果，我們只繪制Top-4圖像塊(按激活值排序)，并將塊的面積放大兩倍，同時(shí)保持中心位置不變。

第二行和第四行顯示了整個(gè)圖像的整體注意力圖，我們對(duì)所有注意力頭的權(quán)重進(jìn)行平均，以獲得單個(gè)注意力圖。區(qū)域越輕越重要。從圖中，我們可以清楚地看到，我們的TransFG成功地捕捉到了一個(gè)對(duì)象的最重要的區(qū)域，即鳥(niǎo)的頭部、翅膀和尾巴；狗的耳朵、眼睛、腿；燈，車(chē)門(mén)。同時(shí)，即使在復(fù)雜的背景下，我們的整體注意力圖也能精確地映射出整個(gè)物體。參見(jiàn)NABirds數(shù)據(jù)集中鳥(niǎo)類(lèi)坐在樹(shù)枝上的例子。鳥(niǎo)的部分被點(diǎn)燃，而封堵器的細(xì)枝被忽略。

5.結(jié)論

在這項(xiàng)工作中，我們提出了一個(gè)新的細(xì)粒度視覺(jué)分類(lèi)框架，并在四個(gè)常見(jiàn)的細(xì)粒度基準(zhǔn)上取得了最新的結(jié)果。我們利用自我注意機(jī)制來(lái)捕捉最具辨別力的區(qū)域。與其他方法生成的邊界框相比，我們選擇的圖像塊要小得多，因此通過(guò)顯示哪些區(qū)域真正有助于細(xì)粒度分類(lèi)變得更有意義。這種小圖像塊的有效性也來(lái)自于transformer處理這些區(qū)域之間的內(nèi)部關(guān)系，而不是依賴(lài)于它們中的每一個(gè)來(lái)分別產(chǎn)生結(jié)果。引入對(duì)比特征學(xué)習(xí)來(lái)提高分類(lèi)標(biāo)記的區(qū)分能力。定性可視化進(jìn)一步證明了我們方法的有效性和可解釋性。
由于TransFG取得了令人鼓舞的結(jié)果，我們相信基于transformer的模型在細(xì)粒度任務(wù)上有很大的潛力，我們的TransFG可以作為未來(lái)工作的起點(diǎn)。

五個(gè)數(shù)據(jù)集上的比較

總結(jié)

以上是生活随笔為你收集整理的Transformer在细粒度分类上的应用的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【Bug解决】 -1073740791
下一篇：中文乱码深入分析