Transformer在细粒度分类上的应用
TransFG :Transformer在細(xì)粒度分類(lèi)上的應(yīng)用
- 摘要
- 1.引言
- 2.相關(guān)工作
- ==細(xì)粒度視覺(jué)分類(lèi)==
- **==Transformer==**
- 3.方法
- 3.1作為特征提取的vision transformer
- 3.2. TransFG Architecture
- 區(qū)域選擇模塊
- 3.2.2 對(duì)比特征學(xué)習(xí)
- 4.實(shí)驗(yàn)
- 實(shí)驗(yàn)設(shè)置
- 4.1 實(shí)驗(yàn)設(shè)計(jì)
- **實(shí)施細(xì)節(jié)**.
- 4.2 **定量分析**
- 4.3.消融實(shí)驗(yàn)
- **4.4.定性分析**
- 5.結(jié)論
論文: TransFG: A Transformer Architecture for Fine-grained Recognition
首個(gè)驗(yàn)證 vision transformer 在細(xì)粒度視覺(jué)分類(lèi)上的有效性工作,為占主導(dǎo)地位的CNN 骨干與 RPN 模型設(shè)計(jì)提供了一個(gè)替代方案。文章中介紹了 TransFG,一種用于細(xì)粒度視覺(jué)分類(lèi)的新型神經(jīng)架構(gòu),它可以自然地聚焦于物體中最具分辨力的區(qū)域,并在多個(gè)標(biāo)準(zhǔn)基準(zhǔn)上實(shí)現(xiàn) SOTA 性能。其中可視化結(jié)果的呈現(xiàn),說(shuō)明了 TransFG 能夠準(zhǔn)確地捕捉到鑒別性的圖像區(qū)域。
摘要
- 現(xiàn)有方法
目前,處理細(xì)粒度分類(lèi)問(wèn)題主要是通過(guò)聚焦于如何定位最有區(qū)別的圖像區(qū)域并依靠它們來(lái)提高網(wǎng)絡(luò)捕捉細(xì)微變化的能力。這些工作大多是通過(guò)重用主干網(wǎng)絡(luò)來(lái)提取選定區(qū)域的特征來(lái)實(shí)現(xiàn)的。
- 存在問(wèn)題
這種策略不可避免地使整個(gè)過(guò)程變得復(fù)雜,并要求預(yù)測(cè)框包含對(duì)象的絕大大部分。
- TransFG
transformer的自注意力機(jī)制將每個(gè)patch token鏈接到分類(lèi)token,注意力鏈接的強(qiáng)度可以被直觀地認(rèn)為是表征重要性的指標(biāo)。
在這項(xiàng)工作中,我們提出了一種新的基于transformer的框架:TransFG,其中我們將transformer的所有原始注意力權(quán)重集成到一個(gè)attention map中,以指導(dǎo)網(wǎng)絡(luò)有效和準(zhǔn)確地選擇有區(qū)別的圖像塊并計(jì)算它們之間的關(guān)系。應(yīng)用對(duì)比損失來(lái)進(jìn)一步擴(kuò)大相似子類(lèi)的特征表示之間的距離。
- 效果
在五個(gè)流行的細(xì)粒度benchmark上進(jìn)行實(shí)驗(yàn)來(lái)證明TransFG的效果:CUB-200-2011, Stanford Cars, Stan-ford Dogs, NABirds and iNat2017 ,在這些基準(zhǔn)上,實(shí)現(xiàn)了SOTA。
1.引言
目前來(lái)說(shuō),為了避免人工密集的區(qū)域標(biāo)簽,這個(gè)領(lǐng)域致力于圖片層次標(biāo)簽的弱監(jiān)督的方法。方法可以分為兩大類(lèi):局部區(qū)域定位和特征編碼。與特征編碼方法相比,定位方法的優(yōu)點(diǎn)在于它們明確地捕捉不同子類(lèi)之間的細(xì)微差別,這種差別更具有解釋性,并且通常產(chǎn)生更好的結(jié)果。
早期定位方法依賴(lài)于局部標(biāo)簽去定位有差別的區(qū)域,現(xiàn)在主要采用區(qū)域提議網(wǎng)絡(luò)(RPN)來(lái)提取包含差別區(qū)域的bbox。在獲得所選擇的圖像區(qū)域之后,它們被重新調(diào)整到預(yù)定義的大小,并再次通過(guò)主干網(wǎng)絡(luò),以獲得信息豐富的局部特征。典型的策略是單獨(dú)使用這些局部特征進(jìn)行分類(lèi),并采用秩損失來(lái)保持bbox的質(zhì)量和它們的最終概率輸出之間的一致性。但是,該機(jī)制忽略了所選區(qū)域之間的關(guān)系,不可避免使得RPN預(yù)測(cè)的bbox包含大部分對(duì)象的邊界框,以便獲得正確的分類(lèi)結(jié)果。有時(shí)這些邊界框甚至可以包含大面積的背景,導(dǎo)致混亂。此外,與主干網(wǎng)相比,RPN模塊具有不同的優(yōu)化目標(biāo),這使得網(wǎng)絡(luò)更難訓(xùn)練,主干網(wǎng)的重用使得整個(gè)算法流程變得復(fù)雜。
最近,vision transformer在傳統(tǒng)的分類(lèi)任務(wù)中取得了巨大的成功,這表明利用其固有的注意機(jī)制將transformer直接應(yīng)用于圖像塊序列可以捕獲圖像中的重要區(qū)域,從而便于分類(lèi)。一系列關(guān)于下面任務(wù)的擴(kuò)展工作,如對(duì)象檢測(cè),語(yǔ)義分割,證實(shí)了vision transformer捕捉全局和局部特征的強(qiáng)大能力。
我們?cè)谖鍌€(gè)流行的細(xì)粒度視覺(jué)分類(lèi)基準(zhǔn)(CUB-200-2011,斯坦福汽車(chē),斯坦福狗,NABirds,iNat 2017年)上廣泛評(píng)估了我們的模型。性能比較的概述可以在圖1中看到,在大多數(shù)數(shù)據(jù)集上,我們的轉(zhuǎn)換優(yōu)于現(xiàn)有的具有不同主干的SOTA CNN方法。總之,在這項(xiàng)工作中做出了幾項(xiàng)重要貢獻(xiàn):
- 第一個(gè)驗(yàn)證vision transformer在細(xì)粒度視覺(jué)分類(lèi)上的有效性,它提供了一種替代具有RPN模型設(shè)計(jì)的CNN主干的方法。
- 引入了TransFG,一種新的用于細(xì)粒度視覺(jué)分類(lèi)的神經(jīng)體系結(jié)構(gòu),它自然地聚焦于對(duì)象的最有區(qū)別的區(qū)域,并在幾個(gè)標(biāo)準(zhǔn)基準(zhǔn)上實(shí)現(xiàn)SOTA性能。
- 可視化結(jié)果展示了我們的轉(zhuǎn)換能夠準(zhǔn)確地捕捉有區(qū)別的圖像區(qū)域,并幫助我們更好地理解它如何做出正確的預(yù)測(cè)。
2.相關(guān)工作
簡(jiǎn)要回顧了現(xiàn)有的關(guān)于細(xì)粒度視覺(jué)分類(lèi)和transformer的工作。
細(xì)粒度視覺(jué)分類(lèi)
已經(jīng)做了許多工作來(lái)解決細(xì)粒度視覺(jué)分類(lèi)的問(wèn)題,它們可以大致分為兩類(lèi):定位方法和特征編碼方法。前者側(cè)重于訓(xùn)練一個(gè)檢測(cè)網(wǎng)絡(luò)來(lái)定位有區(qū)別的部分區(qū)域,并重用它們來(lái)執(zhí)行分類(lèi)。后者旨在通過(guò)計(jì)算高階信息或?qū)ふ覍?duì)比對(duì)之間的關(guān)系來(lái)學(xué)習(xí)更多的信息特征。
- 定位方法
以往,利用區(qū)域標(biāo)簽來(lái)監(jiān)督定位過(guò)程的學(xué)習(xí)過(guò)程。然而,由于這樣的標(biāo)注是昂貴的并且通常是不可獲得的,如今僅具有圖像級(jí)標(biāo)簽的弱監(jiān)督區(qū)域引起了更多的關(guān)注。
He等人[21]提出了一個(gè)復(fù)雜的強(qiáng)化學(xué)習(xí)程序,以估計(jì)如何選擇有區(qū)別的圖像區(qū)域及其數(shù)量。
Ge等人[16]交替地使用基于掩蔽的CNN和基于CRF的分割來(lái)提取對(duì)象實(shí)例和區(qū)分區(qū)域。Yang等人[47]基于區(qū)域特征構(gòu)建的數(shù)據(jù)庫(kù),對(duì)全局分類(lèi)結(jié)果進(jìn)行重新排序。
然而,這些方法都需要一個(gè)特殊設(shè)計(jì)的模塊來(lái)提出潛在的區(qū)域,并且這些選擇的區(qū)域需要通過(guò)主干再次轉(zhuǎn)發(fā)以進(jìn)行最終分類(lèi)。此外,一些預(yù)測(cè)的區(qū)域往往包含整個(gè)對(duì)象,這是不夠具有區(qū)別性。 - 特征編碼
該方法一個(gè)方面集中于豐富特征表示以獲得更好的分類(lèi)結(jié)果。
Yu等人[50]提出了一個(gè)分層框架來(lái)做跨層雙線性池。
Zheng等人[53]采用群卷積的思想,首先根據(jù)信道的語(yǔ)義將信道分成不同的群,然后在每個(gè)群內(nèi)進(jìn)行雙線性合并,而不改變維數(shù),從而可以直接集成到任何已有的主干中。
Zhuang等人[56]提出構(gòu)建對(duì)比輸入批次并計(jì)算它們之間的線索,以迫使特征包含這種區(qū)別性信息。然而,這些方法通常是不可解釋的,這樣的方法不知道是什么使得模型區(qū)分具有細(xì)微差異的子類(lèi)別。
Transformer
transformer和自我注意模型極大地促進(jìn)了自然語(yǔ)言處理和機(jī)器翻譯的研究[8,9,41,48]。受此啟發(fā),最近的許多研究試圖將transformer應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域。最初,transformer用于處理通過(guò)CNN主干網(wǎng)絡(luò)提取的視頻的連續(xù)特征。Girdhar等人[18]利用transformer的一種變體來(lái)聚合與視頻中特定人相關(guān)的上下文線索。后來(lái),變壓器模型進(jìn)一步擴(kuò)展到其他流行的計(jì)算機(jī)視覺(jué)任務(wù),如目標(biāo)檢測(cè)[3],分割[46,4,51],目標(biāo)跟蹤[36]。最近,純transformer模型越來(lái)越受歡迎。ViT [11]是第一個(gè)證明(將純transformer直接應(yīng)用于一系列圖像塊)可以在圖像分類(lèi)方面產(chǎn)生最先進(jìn)性能。在此基礎(chǔ)上,鄭等人[55]提出利用ViT作為分割的編碼器。He等人[20]提出了TransReID,它將邊信息與JPM一起嵌入到transformer中,以提高對(duì)象重識(shí)別的性能。在這項(xiàng)工作中,我們將ViT擴(kuò)展到細(xì)粒度的視覺(jué)分類(lèi),并展示了它的有效性。
3.方法
3.1作為特征提取的vision transformer
圖像序列化。基于ViT,我們首先將輸入圖像預(yù)處理成一系列展開(kāi)的面片xpx_pxp?。然而,原始的分割方法將圖像分割成不重疊的小塊,這損害了局部鄰近結(jié)構(gòu),尤其是在分割有區(qū)別的區(qū)域時(shí)的時(shí)候。為了緩解這個(gè)問(wèn)題,我們提出用滑動(dòng)窗口生成重疊的面片。具體來(lái)說(shuō),我們用分辨率H?WH*WH?W表示輸入圖像,圖像塊的大小為PPP,滑動(dòng)窗口的步長(zhǎng)為SSS。因此,輸入圖像將被分成N個(gè)塊,其中N=NH?NW=[H?P+SS]?[W?P+SS](1)N = N_H*N_W=[\frac{H-P+S}{S}]*[\frac{W-P+S}{S}]\quad\quad\quad (1)N=NH??NW?=[SH?P+S?]?[SW?P+S?](1)這樣,兩個(gè)相鄰的塊共享一個(gè)大小為(P?S)?P(P-S)*P(P?S)?P的重疊區(qū)域,這有助于更好地保留局部區(qū)域信息。通常來(lái)說(shuō),步長(zhǎng)S越小,性能越好。但是減少S的同時(shí)會(huì)加大計(jì)算成本,所以這里需要做一個(gè)權(quán)衡。
批量嵌入 我們使用可訓(xùn)練的線性投影將矢量化的面片xPx_PxP?映射到潛在的三維嵌入空間中。可學(xué)習(xí)的位置嵌入被添加到補(bǔ)片嵌入中,以保留如下位置信息:
z0=[xp1E,xp2E,...,xpNE]+Epos(2)z_0=[x^1_pE,x^2_pE,...,x^\N_pE]+E_{pos} \quad\quad\quad\quad (2)z0?=[xp1?E,xp2?E,...,xpN?E]+Epos?(2)
其中NNN是圖像批量的數(shù)量,E∈R(P2?C)?DE\in R^{(P^2-C)*D}E∈R(P2?C)?D是批量嵌入投影,Epos∈RN+DE_{pos}\in R^{N+D}Epos?∈RN+D代表位置嵌入。
Transformer編碼器包含LLL層多頭自我注意(MSA)和多層感知器(MLP)塊。因此,第lll層的輸出可以寫(xiě)如下:
其中LN(?)LN(\cdot)LN(?)表示層歸一化操作,zlz_lzl?表示編碼圖像表示。ViTViTViT利用最后一個(gè)編碼器層zL0z^0_LzL0?的第一個(gè)token作為全局特征的表示,并將其轉(zhuǎn)發(fā)給分類(lèi)器頭,以獲得最終的分類(lèi)結(jié)果,而不考慮存儲(chǔ)在剩余token中的潛在信息。
3.2. TransFG Architecture
而我們?cè)诘?節(jié)的實(shí)驗(yàn)表明,純Vision Transformer可以直接應(yīng)用于細(xì)粒度的視覺(jué)分類(lèi),并取得令人印象深刻的結(jié)果。它沒(méi)有很好地捕獲FGVCFGVCFGVC所需的位置信,為此,我們提出了區(qū)域選擇模塊,并應(yīng)用對(duì)比特征學(xué)習(xí)來(lái)擴(kuò)大相似子類(lèi)別之間的表征距離。我們提出的transformer框架如圖2所示:
圖像被分割成小塊(此處顯示了不重疊的分割),并被投影到嵌入空間中。變壓器編碼器的輸入包括批量嵌入和可學(xué)習(xí)的位置嵌入。在最后一個(gè)transformer層之前,區(qū)域選擇模塊(PSM)來(lái)選擇對(duì)應(yīng)于區(qū)別性圖像塊的標(biāo)記,并且僅使用這些選擇的tokens作為輸入。最終分類(lèi)標(biāo)記上的交叉熵?fù)p失和對(duì)比損失有助于訓(xùn)練TransFG。
區(qū)域選擇模塊
細(xì)粒度視覺(jué)分類(lèi)中最重要的問(wèn)題之一是準(zhǔn)確定位區(qū)分區(qū)域,這些區(qū)域解釋了相似區(qū)域之間的細(xì)微差異。
圖3:CUB-2002011數(shù)據(jù)集的一對(duì)confusing的實(shí)例。模型需要具備捕捉細(xì)微差異的能力,以便對(duì)其進(jìn)行正確分類(lèi)。第二列顯示了整體注意力圖和我們的轉(zhuǎn)換方法的兩個(gè)選定標(biāo)記。最好用彩色觀看。子類(lèi)。以CUB-200-2011數(shù)據(jù)集的一對(duì)令人困惑的圖像為例,如圖3所示。為了區(qū)分這兩種鳥(niǎo)類(lèi),模型需要能夠捕捉非常小的差異,即眼睛和喉嚨的顏色。
區(qū)域提議網(wǎng)絡(luò)和弱監(jiān)督分割策略被廣泛地引入到傳統(tǒng)的基于聚類(lèi)的方法中來(lái)解決這個(gè)問(wèn)題。vision transformer模型與生俱來(lái)的多頭注意力機(jī)制非常適合這里。為了充分利用注意力信息,我們將輸入更改到最后一個(gè)transformer層。假設(shè)模型有KKK個(gè)自注意力頭,輸入到最后一層的隱藏特征表示為zL?1=[zL?10;zL?11,zL?12,???,zL?1N]z_{L-1} =[z^0_{ L-1};z^1_{ L-1},z^2_{ L-1},\cdot\cdot\cdot,z^N_{ L-1}]zL?1?=[zL?10?;zL?11?,zL?12?,???,zL?1N?]前面各層的注意力權(quán)重可寫(xiě)如下:
由于嵌入缺乏標(biāo)記可識(shí)別性,原始注意力權(quán)重不一定對(duì)應(yīng)于輸入標(biāo)記的相關(guān)重要性,特別是對(duì)于模型的更高層。為此,我們建議整合所有先前層的注意力權(quán)重。具體來(lái)說(shuō),我們遞歸地將矩陣乘法應(yīng)用于所有層中的原始注意力權(quán)重,如下所示
由于αfianl\alpha_{fianl}αfianl?最終能捕捉到信息是如何從輸入層傳播到更高層的嵌入層,因此與單層原始注意力權(quán)重αL?1\alpha_{L-1}αL?1?.相比,它是選擇區(qū)分區(qū)域的更好選擇。然后,關(guān)于最后的在αL?1\alpha_{L-1}αL?1?中的K個(gè)不同注意力頭,我們選擇最大值(A1,A2,???,AkA_1,A_2,\cdot\cdot\cdot,A_kA1?,A2?,???,Ak?)的索引。這些位置被用作我們的模型的索引,以提取zL?1z_{L-1}zL?1?中的相應(yīng)標(biāo)記。最后,我們將選擇的標(biāo)記和分類(lèi)標(biāo)記連接起來(lái)作為輸入序列,表示為:zlocal=[zL?10;zL?1A1,???,zL?1Ak](8)z_{local}=[z^0_{L-1};z^{A_1}_{L-1},\cdot\cdot\cdot, z^{A_k}_{L-1}]\quad\quad\quad(8)zlocal?=[zL?10?;zL?1A1??,???,zL?1Ak??](8)
通過(guò)將原始的整個(gè)輸入序列替換為對(duì)應(yīng)于信息區(qū)域的標(biāo)記,并將分類(lèi)標(biāo)記作為輸入連接到最后一個(gè)transformer層,我們不僅保留了全局信息,還強(qiáng)制最后一個(gè)transformer層去關(guān)注不同子類(lèi)別之間的細(xì)微差異,同時(shí)在一個(gè)超類(lèi)中放棄了像back ground or common features之類(lèi)的區(qū)分度較低的區(qū)域。
3.2.2 對(duì)比特征學(xué)習(xí)
在ViT之后,我們?nèi)匀徊捎肞SM模塊的第一個(gè)token ziz_izi?進(jìn)行分類(lèi)。簡(jiǎn)單的交叉熵?fù)p失不足以完全監(jiān)督特征的學(xué)習(xí),因?yàn)樽宇?lèi)別之間的差異可能非常小。為此,我們采用了對(duì)比損失LconL_{con}Lcon?,它使對(duì)應(yīng)于不同標(biāo)簽的分類(lèi)標(biāo)記的相似性最小化,并使具有相同標(biāo)簽yyy的樣本的分類(lèi)標(biāo)記的相似性最大化。為了防止損失被easy negatives所支配(具有很小的相似性不同類(lèi)別的樣本),引入了恒定的裕度α,使得只有相似性大于α的否定對(duì)才有助于損失LconL_{con}Lcon?。
形式上,一批大小為N的對(duì)比損失表示為:
其中ziz_izi?和zjz_jzj?經(jīng)過(guò)l2l_2l2?一化預(yù)處理,Sim(zi,zj)Sim(zi,zj)Sim(zi,zj)為ziz_izi?和zjz_jzj?的余弦相似度。
總之,我們的模型是用交叉熵?fù)p失LcrossL_{cross}Lcross?對(duì)比損失LconL_{con}Lcon?之和來(lái)訓(xùn)練的,它可以表示為:
其中Lcross(y,y’)L_{cross(y,y^’)}Lcross(y,y’)?是預(yù)測(cè)標(biāo)簽y‘y^‘y‘和真實(shí)標(biāo)簽y之間的交叉熵?fù)p失。
4.實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
4.1 實(shí)驗(yàn)設(shè)計(jì)
數(shù)據(jù)集 我們基于五個(gè)廣泛使用的細(xì)粒度基準(zhǔn)來(lái)評(píng)估我們提出的TransFG,即CUB-200-2011 [42]、斯坦福汽車(chē)[27]、斯坦福狗[25]、NABirds [40]和iNat 2017[22]。類(lèi)別號(hào)和數(shù)據(jù)拆分等詳細(xì)信息總結(jié)如下:
實(shí)施細(xì)節(jié).
304,以進(jìn)行公平比較(隨機(jī)裁剪用于訓(xùn)練,中心裁剪用于測(cè)試)。
等式9中
中的裕量α被設(shè)置為0.4。
4.2 定量分析
我們將我們提出的方法與上述細(xì)粒度數(shù)據(jù)集上最先進(jìn)的工作進(jìn)行了比較。CUB-200-2011和斯坦福汽車(chē)的實(shí)驗(yàn)結(jié)果如表2所示。從結(jié)果來(lái)看,我們發(fā)現(xiàn)我們的方法在CUB數(shù)據(jù)集上優(yōu)于以前的所有方法,并在斯坦福汽車(chē)上取得了競(jìng)爭(zhēng)性能。
具體來(lái)說(shuō),表2的第三列顯示了CUB-200-2011的比較結(jié)果。與迄今為止的最佳結(jié)果StackedLSTM [17]相比,我們的TransFG在Top-1指標(biāo)上提高了1.3%; 與基礎(chǔ)框架ViT相比提高了1.4%。
NTS-Net網(wǎng)[49]利用秩損失(ranking loss)來(lái)保持的學(xué)習(xí)區(qū)域特征的一致性。在[10]中采用多個(gè)ResNet-50作為多個(gè)分支,這大大增加了復(fù)雜性。還值得注意的是,Stack LSTM是一個(gè)非常混亂的多階段培訓(xùn)模型,這阻礙了實(shí)際應(yīng)用的可用性,而我們的TransFG保持了框架和培訓(xùn)策略的簡(jiǎn)單性。
表2的第四列顯示了斯坦福汽車(chē)的結(jié)果。我們的方法優(yōu)于大多數(shù)現(xiàn)有的方法,但比PMG [12]和API-Net [56]的性能差,它們誤差小。我們認(rèn)為,原因可能是斯坦福汽車(chē)數(shù)據(jù)集的圖像比其他數(shù)據(jù)集具有更簡(jiǎn)單和更清晰的背景,因此它需要更少的工作來(lái)定位用于分類(lèi)子類(lèi)別的區(qū)分區(qū)域。我們可以觀察到,最近的方法在這個(gè)數(shù)據(jù)集上獲得了非常相似的結(jié)果。然而,即使具有這一特性,我們的Transformer始終比標(biāo)準(zhǔn)的ViT車(chē)型提高1.1%。
表3斯坦福狗的實(shí)驗(yàn)結(jié)果。與斯坦福汽車(chē)相比,斯坦福狗是一個(gè)更具挑戰(zhàn)性的數(shù)據(jù)集,因?yàn)樗哪承┪锓N之間存在更細(xì)微的差異,同一類(lèi)別的樣本差異也很大。只有少數(shù)方法在這個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)試,我們的TransFG優(yōu)于所有方法。API-Net [56]通過(guò)精心構(gòu)建批量數(shù)據(jù)并學(xué)習(xí)它們的相互特征向量和殘差,學(xué)會(huì)捕捉細(xì)微差異。盡管ViT [11]在很大程度上優(yōu)于其他方法,但是我們的TransFG實(shí)現(xiàn)了92.3%的準(zhǔn)確率,比SOTA的準(zhǔn)確率高2.0%。
表4 NABirds是一個(gè)大得多的鳥(niǎo)類(lèi)數(shù)據(jù)集,圖像數(shù)量巨大,而且還有355個(gè)以上的類(lèi)別,這使得細(xì)粒度的視覺(jué)分類(lèi)任務(wù)更具挑戰(zhàn)性。我們?cè)诒?中顯示了我們的結(jié)果。我們觀察到,大多數(shù)方法(要么通過(guò)為不同的分支開(kāi)發(fā)多個(gè)主干),要么采用相當(dāng)深的CNN結(jié)構(gòu)來(lái)提取更好的特征,從而獲得良好的結(jié)果。雖然純ViT [11]可以直接達(dá)到89.9%的精度,但與ViT相比,我們的TransFG不斷獲得0.9%的性能增益,達(dá)到90.8%的精度,比SOTA高出1.6%。
表5 iNat2017是一個(gè)用于細(xì)粒度物種識(shí)別的大規(guī)模數(shù)據(jù)集。由于多作物、多尺度和多階段優(yōu)化的計(jì)算復(fù)雜性,大多數(shù)以前的方法沒(méi)有報(bào)告2017年的結(jié)果。憑借我們模型管道 的簡(jiǎn)單性,我們能夠擴(kuò)展Transformer大數(shù)據(jù)集,并評(píng)估性能,如表5所示。該數(shù)據(jù)集對(duì)于挖掘有意義的對(duì)象部分是非常具有挑戰(zhàn)性的,并且背景也非常復(fù)雜。我們發(fā)現(xiàn),在這些具有挑戰(zhàn)性的大型數(shù)據(jù)集上,Vision transformer結(jié)構(gòu)的性能遠(yuǎn)遠(yuǎn)優(yōu)于ResNet結(jié)構(gòu)。ViT比ResNet152高出近10%,在2018年和2019年也可以觀察到類(lèi)似的現(xiàn)象。我們的TransFG是唯一一種在輸入大小為304的情況下達(dá)到70%以上精度的方法,并且以3.5%的大幅度優(yōu)于SOTA。
4.3.消融實(shí)驗(yàn)
我們對(duì)我們的TransFG pipeline進(jìn)行消融研究,以分析其變體如何影響細(xì)粒度的視覺(jué)分類(lèi)結(jié)果。所有消融研究都是在CUB-2002011數(shù)據(jù)集上進(jìn)行的,而同樣的現(xiàn)象也可以在其他數(shù)據(jù)集上觀察到。我們?cè)u(píng)估了以下設(shè)計(jì)的影響:重疊貼片、區(qū)域選擇模塊、對(duì)比速度和結(jié)果分析。
圖像塊分割方法的影響。我們通過(guò)標(biāo)準(zhǔn)的非重疊面片分割實(shí)驗(yàn)來(lái)研究重疊面片分割方法的影響。如表6所示,在純vision transformer和改進(jìn)的轉(zhuǎn)換框架上,重疊分割方法帶來(lái)了一致的改進(jìn),即兩個(gè)框架都有0.2%的改進(jìn)。由此帶來(lái)的額外計(jì)算成本也是可以承受的,如第四列所示。
區(qū)域選擇模塊的影響。如表7所示,通過(guò)**選擇模塊(PSM)**選擇有區(qū)別的區(qū)域標(biāo)記作為最后一個(gè)transformer層的輸入,模型的性能從90.3%提高到91.0%。我們認(rèn)為,這是因?yàn)橥ㄟ^(guò)這種方式,我們將最具區(qū)別性的tokens作為輸入進(jìn)行采樣,這明確地丟棄了一些無(wú)用的tokens,并迫使網(wǎng)絡(luò)從重要的部分學(xué)習(xí)。
對(duì)比損失的影響。ViT和TransFG框架分別在有無(wú)對(duì)比損失時(shí)的性能比較,以驗(yàn)證其有效性。我們觀察到,在有對(duì)比損失的情況下,模型獲得了很大的性能增益。定量地說(shuō),它將ViT的準(zhǔn)確率從90.3%提高到90.7%,將TransFG的準(zhǔn)確率從91.0%提高到91.5%。我們認(rèn)為,這是因?yàn)閷?duì)比損失可以有效地?cái)U(kuò)大相似子類(lèi)別之間的表征距離,減少相同類(lèi)別之間的表征距離,這可以從圖4中混淆矩陣的比較中清楚地看到。
余量α的影響。等式9中裕度α的不同設(shè)置結(jié)果如表9所示。我們發(fā)現(xiàn),較小的α值會(huì)導(dǎo)致訓(xùn)練信號(hào)以easy negative為主,從而降低性能,而較大的α值會(huì)阻礙模型學(xué)習(xí)足夠的信息來(lái)增加hard negative的距離。根據(jù)經(jīng)驗(yàn),我們?cè)趯?shí)驗(yàn)中發(fā)現(xiàn)0.4是α的最佳值。
4.4.定性分析
我們?cè)?strong>圖5的四個(gè)基準(zhǔn)上顯示了Transformer的可視化結(jié)果。我們從每個(gè)數(shù)據(jù)集中隨機(jī)抽取三幅圖像。呈現(xiàn)了兩種可視化。圖5的第一行和第三行示出了選定的tokens位置。為了獲得更好的可視化結(jié)果,我們只繪制Top-4圖像塊(按激活值排序),并將塊的面積放大兩倍,同時(shí)保持中心位置不變。
第二行和第四行顯示了整個(gè)圖像的整體注意力圖,我們對(duì)所有注意力頭的權(quán)重進(jìn)行平均,以獲得單個(gè)注意力圖。區(qū)域越輕越重要。從圖中,我們可以清楚地看到,我們的TransFG成功地捕捉到了一個(gè)對(duì)象的最重要的區(qū)域,即鳥(niǎo)的頭部、翅膀和尾巴;狗的耳朵、眼睛、腿;燈,車(chē)門(mén)。同時(shí),即使在復(fù)雜的背景下,我們的整體注意力圖也能精確地映射出整個(gè)物體。參見(jiàn)NABirds數(shù)據(jù)集中鳥(niǎo)類(lèi)坐在樹(shù)枝上的例子。鳥(niǎo)的部分被點(diǎn)燃,而封堵器的細(xì)枝被忽略。
5.結(jié)論
在這項(xiàng)工作中,我們提出了一個(gè)新的細(xì)粒度視覺(jué)分類(lèi)框架,并在四個(gè)常見(jiàn)的細(xì)粒度基準(zhǔn)上取得了最新的結(jié)果。我們利用自我注意機(jī)制來(lái)捕捉最具辨別力的區(qū)域。與其他方法生成的邊界框相比,我們選擇的圖像塊要小得多,因此通過(guò)顯示哪些區(qū)域真正有助于細(xì)粒度分類(lèi)變得更有意義。這種小圖像塊的有效性也來(lái)自于transformer處理這些區(qū)域之間的內(nèi)部關(guān)系,而不是依賴(lài)于它們中的每一個(gè)來(lái)分別產(chǎn)生結(jié)果。引入對(duì)比特征學(xué)習(xí)來(lái)提高分類(lèi)標(biāo)記的區(qū)分能力。定性可視化進(jìn)一步證明了我們方法的有效性和可解釋性。
由于TransFG取得了令人鼓舞的結(jié)果,我們相信基于transformer的模型在細(xì)粒度任務(wù)上有很大的潛力,我們的TransFG可以作為未來(lái)工作的起點(diǎn)。
五個(gè)數(shù)據(jù)集上的比較
總結(jié)
以上是生活随笔為你收集整理的Transformer在细粒度分类上的应用的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【Bug解决】 -1073740791
- 下一篇: 中文乱码深入分析