使用级联Softmax和广义大幅度损失训练的改进DCNN进行细粒度图像分类
摘要:
利用一般的深卷積神經(jīng)網(wǎng)絡(luò)(DCNN)設(shè)計(jì)了一種細(xì)粒度的圖像分類(lèi)器。我們從以下兩個(gè)方面提高了DCNN模型的細(xì)粒度圖像分類(lèi)精度。首先,為了更好地建模包含在給定訓(xùn)練數(shù)據(jù)集中的細(xì)粒度圖像類(lèi)的h級(jí)分層標(biāo)簽結(jié)構(gòu),我們引入h完全連接(Fc)層來(lái)代替給定DCNN模型的頂層fc層,并用級(jí)聯(lián)Softmax損失對(duì)其進(jìn)行訓(xùn)練。
其次,我們提出了一種新的損失函數(shù),即廣義大邊界損失(GLM)損失,使給定的DCNN模型能夠顯式地探索細(xì)粒度圖像類(lèi)的層次標(biāo)簽結(jié)構(gòu)和相似規(guī)律。GLM損失不僅減少了DCNN模型學(xué)習(xí)特征的類(lèi)間相似度和類(lèi)內(nèi)方差,而且使屬于同一粗類(lèi)的子類(lèi)在特征空間中比屬于不同粗類(lèi)的子類(lèi)更加相似。此外,所提出的細(xì)粒度圖像分類(lèi)框架是獨(dú)立的,適用于任何DCNN結(jié)構(gòu)。利用三個(gè)基準(zhǔn)數(shù)據(jù)集(StanfordCar、細(xì)粒度視覺(jué)分類(lèi)飛機(jī)和CUB-200-2011)對(duì)幾種常用的DCNN模型(AlexNet、Google LeNet和VGG)進(jìn)行了綜合實(shí)驗(yàn)評(píng)估,驗(yàn)證了該方法的有效性。
關(guān)鍵詞:級(jí)聯(lián)Softmax損失,深卷積神經(jīng)網(wǎng)絡(luò)(DCNN),細(xì)粒度圖像分類(lèi),廣義大邊界(GLM)損失,分層標(biāo)簽結(jié)構(gòu)。
1.引言:
細(xì)粒度圖像分類(lèi)的目的是識(shí)別某些基類(lèi)的子類(lèi),如不同模型的CARS[1]-[5]、鳥(niǎo)類(lèi)的種類(lèi)[5]-[9]、飛機(jī)的變體[10]、[11]等。它具有廣泛的應(yīng)用,如視頻監(jiān)控車(chē)輛模型識(shí)別、細(xì)粒度圖像內(nèi)容標(biāo)注、垂直搜索等。細(xì)粒度圖像分類(lèi)面臨的挑戰(zhàn)主要來(lái)自兩個(gè)方面:類(lèi)間相似性和類(lèi)內(nèi)方差[12]-[16]。
一方面,不同細(xì)粒度類(lèi)之間的視覺(jué)差異可能非常小且微妙。另一方面,由于位置、視點(diǎn)、姿勢(shì)、照明條件等的不同,屬于同一細(xì)粒度類(lèi)的實(shí)例可能具有明顯的不同外觀。例如,圖中所示的“加利福尼亞海鷗”。1(A)在視覺(jué)上與圖中的“環(huán)嘴鷗”非常相似。1(B),它們之間唯一顯著的區(qū)別在于它們喙上的圖案。同時(shí),由于姿態(tài)、視點(diǎn)和光照條件的不同,不同圖像中的“加利福尼亞海鷗”(如“環(huán)嘴鷗”)呈現(xiàn)出明顯的不同外觀。
對(duì)于細(xì)粒度的圖像分類(lèi)任務(wù),文獻(xiàn)[17]-[20]中提出了許多基于部分的分類(lèi)方法。
這些方法首先檢測(cè)目標(biāo)對(duì)象的不同部分,然后對(duì)局部部分的外觀進(jìn)行建模,以增加類(lèi)間的識(shí)別率,同時(shí)減小類(lèi)內(nèi)的差異。例如,對(duì)于細(xì)粒度的鳥(niǎo)類(lèi)分類(lèi),張等。[18]建議學(xué)習(xí)頭部、喙和身體等零件的外觀模型,并強(qiáng)制執(zhí)行它們之間的幾何約束。然而,基于零件的方法依賴于精確的零件檢測(cè),這是另一個(gè)具有挑戰(zhàn)性的問(wèn)題,在存在遮擋和較大視點(diǎn)/姿態(tài)變化的情況下可能會(huì)失敗。此外,部件的檢測(cè)器通常以有監(jiān)督的方式進(jìn)行訓(xùn)練,這需要足夠多的訓(xùn)練樣本。顯然,與指定細(xì)粒度的圖像標(biāo)簽相比,標(biāo)注對(duì)象部分更具挑戰(zhàn)性,也更昂貴。
最近的許多研究工作[4],[21]-[25]利用新的損失函數(shù)訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN),如對(duì)比損失[26],[27],三重?fù)p失[23]等,來(lái)學(xué)習(xí)能夠最小化類(lèi)內(nèi)方差,同時(shí)最大化類(lèi)間距離的特征。然而,當(dāng)構(gòu)成給定訓(xùn)練集的樣本對(duì)或樣本三胞胎時(shí),對(duì)比和三胞胎損失都會(huì)受到數(shù)據(jù)擴(kuò)展的影響。此外,據(jù)報(bào)告,構(gòu)成訓(xùn)練樣本對(duì)或三對(duì)樣本的方式會(huì)對(duì)DCNN模型的性能精度產(chǎn)生幾個(gè)百分點(diǎn)的重大影響[23]、[28]。因此,使用這種損失可能會(huì)導(dǎo)致模型收斂較慢、計(jì)算成本較高、訓(xùn)練復(fù)雜性增加和不確定性。
有研究工作提出了新的損失函數(shù)或?qū)iT(mén)的CNN結(jié)構(gòu),以利用不同細(xì)粒度類(lèi)別之間的標(biāo)簽關(guān)系[4]、[5]、[28]、[29]或探討輸入圖像不同部分之間的相關(guān)性[11]。這些方法在細(xì)粒度圖像分類(lèi)的各種基準(zhǔn)數(shù)據(jù)集上都達(dá)到了最新的分類(lèi)精度。
在本文中,我們開(kāi)發(fā)了一個(gè)細(xì)粒度的圖像分類(lèi)器使用一個(gè)通用的DCNN。我們?cè)噲D從以下兩個(gè)方面提高DCNN模型的細(xì)粒度圖像分類(lèi)精度。首先,為了更好地對(duì)細(xì)粒度圖像類(lèi)的h級(jí)層次標(biāo)簽結(jié)構(gòu)進(jìn)行建模,我們將給定的DCNN模型的頂完全連接(FC)層替換為h FC層,每個(gè)層對(duì)應(yīng)于分層標(biāo)簽結(jié)構(gòu)的相應(yīng)層次。h fc層中的每一層都是到其下層和功能輸出層的fc,并使用來(lái)自相應(yīng)標(biāo)簽層次結(jié)構(gòu)的標(biāo)簽的Softmax丟失進(jìn)行訓(xùn)練。本文將用于訓(xùn)練h FC層的h Softmax損耗稱為級(jí)聯(lián)Softmax損耗。
其次,我們提出了一種新的損失函數(shù),即廣義大邊界損失(GLM),它明確地研究了細(xì)粒度圖像類(lèi)的層次標(biāo)簽結(jié)構(gòu)和相似規(guī)律。更具體地說(shuō),對(duì)于每個(gè)給定的細(xì)粒度類(lèi)c,我們將剩余的細(xì)粒度類(lèi)分為兩個(gè)組SP?和nSP?,這兩個(gè)組分別由與c共享和不共享相同粗粒度(父)類(lèi)的細(xì)粒度類(lèi)組成。Glm損失明確地規(guī)定:(1)c與sp?中最近的細(xì)粒度類(lèi)之間的距離比c的類(lèi)內(nèi)方差大一個(gè)預(yù)定義的邊界;(2)c與其最近的細(xì)粒度類(lèi)?之間的距離大于c與其最遠(yuǎn)細(xì)粒度之間的距離(p<0.05);(2)c與其最近的細(xì)粒度類(lèi)?之間的距離大于c?與其最遠(yuǎn)細(xì)粒度之間的距離。-SP?中的粒度類(lèi).
本文的主要貢獻(xiàn)如下。
(1)引入h-fc層來(lái)代替給定DCNN模型的頂層fc層,并用級(jí)聯(lián)的Softmax損失對(duì)其進(jìn)行訓(xùn)練,以更好地模擬細(xì)粒度圖像類(lèi)的h-Level層次標(biāo)簽結(jié)構(gòu)。
(2)提出了GLM損失,使給定的DCNN模型能更好地揭示細(xì)粒度圖像類(lèi)的層次標(biāo)簽結(jié)構(gòu)和相似規(guī)律。
(3)針對(duì)細(xì)粒度圖像分類(lèi)任務(wù),利用三個(gè)基準(zhǔn)數(shù)據(jù)集對(duì)幾種通用的DCNN模型進(jìn)行了綜合實(shí)驗(yàn)評(píng)價(jià),驗(yàn)證了該框架的有效性。
本文的其余部分安排如下。
第二節(jié)回顧了相關(guān)工作。第三節(jié)描述了方法,包括分層標(biāo)簽結(jié)構(gòu)、DCNN修改和級(jí)聯(lián)Softmax損失、GLM損失以及我們框架的優(yōu)化。第四節(jié)介紹了實(shí)驗(yàn)評(píng)價(jià),第五節(jié)是本文的結(jié)論。
2.相關(guān)的工作
提高細(xì)粒度圖像分類(lèi)精度的方法大致可分為以下三類(lèi):1)基于手工特征的方法;2)基于局部特征的方法;3)基于度量學(xué)習(xí)的方法。本節(jié)回顧每個(gè)類(lèi)別的代表性作品。
A 基于手工特征的方法
Krause等人。[1]提出了利用空間金字塔匹配[30]和局部性約束線性編碼[31]相結(jié)合的方法來(lái)獲得細(xì)粒度圖像分類(lèi)的特征表示。林等人。[11]實(shí)現(xiàn)了一種Fisher向量(FV)尺度不變特征變換(SIFT)方法,該方法首先從輸入圖像中提取SIFT特征[32],然后利用SIFT特征學(xué)習(xí)高斯混合模型得到輸入圖像的FV,最后訓(xùn)練一對(duì)一線性支持向量機(jī)對(duì)細(xì)粒度圖像進(jìn)行分類(lèi)。
B Part-Based Methods
細(xì)粒度圖像分類(lèi)的一個(gè)關(guān)鍵挑戰(zhàn)是識(shí)別相似細(xì)粒度類(lèi)的圖像之間的細(xì)微外觀差異。許多基于部分的方法已經(jīng)被提出,通過(guò)定位和表示有區(qū)別的對(duì)象部分來(lái)捕捉細(xì)微的差異。
在變形零件模型的基礎(chǔ)上,Zhang等人提出了可變形零件模型。[33]提出了一種可變形部件描述符,一種姿態(tài)規(guī)格化描述符,以便于細(xì)粒度圖像分類(lèi)任務(wù)的進(jìn)行。柴等人。[34]提出了一種共生分割和局部定位模型對(duì)具有細(xì)微差別的圖像進(jìn)行分類(lèi)。Krause等人。[35]提出使用“局部化學(xué)習(xí)特征集合”來(lái)檢測(cè)重要的目標(biāo)部件并表示它們的外觀。Branson等人。[17]提出了一種用于細(xì)粒度圖像分類(lèi)的位姿歸一化DCNN。
張某等人。[18]利用R-CNN框架[36],提出了一種零件識(shí)別模型(PR-CNN)。上述方法的主要缺點(diǎn)是在訓(xùn)練過(guò)程中需要零件的注釋,這比圖像標(biāo)簽的收集成本要高得多。
以一種無(wú)監(jiān)督的方式探索目標(biāo)零件信息,Lin等人提出了一種新的方法。[11]提出了一種雙線性結(jié)構(gòu)(稱為雙線性-CNN),該結(jié)構(gòu)使用兩個(gè)獨(dú)立的DCNN特征提取器,其輸出在所產(chǎn)生的特征映射的每個(gè)位置利用外積相乘,并匯集在一起以獲得一個(gè)圖像描述符。到目前為止,雙線性-CNN已經(jīng)在幾個(gè)用于細(xì)粒度圖像分類(lèi)的基準(zhǔn)數(shù)據(jù)集上達(dá)到了最新的分類(lèi)精度。然而,兩個(gè)并行的DCNN的使用顯著增加了記憶假設(shè)和該方法的培訓(xùn)和測(cè)試成本。
C 基于度量學(xué)習(xí)方法
此類(lèi)別中的方法嘗試學(xué)習(xí)特征度量,以便將來(lái)自同一類(lèi)的圖像拉近,而將來(lái)自不同類(lèi)的圖像在所學(xué)習(xí)的特征空間中彼此推開(kāi)。人們提出了許多損失函數(shù)來(lái)改進(jìn)CNN的度量學(xué)習(xí)性能。為了列舉一些例子,對(duì)比損失[26]、[27]要求來(lái)自不同類(lèi)別的兩個(gè)圖像樣本之間的距離要比來(lái)自同一類(lèi)別的兩個(gè)樣本之間的距離大一個(gè)預(yù)定義的范圍。三胞胎的損失[23]構(gòu)成了訓(xùn)練過(guò)程中訓(xùn)練集中的大量三胞胎。每個(gè)三元組包含一個(gè)錨點(diǎn)樣本A、一個(gè)正樣本P和一個(gè)負(fù)樣本N,其中A和P來(lái)自同一類(lèi)別,而A和N來(lái)自兩個(gè)不同的類(lèi)別。它規(guī)定A和N之間的距離必須比A和P之間的距離大一個(gè)預(yù)定義的邊距。在使用對(duì)比損失或三重?fù)p失訓(xùn)練CNN時(shí),它們面臨著數(shù)據(jù)擴(kuò)展劇烈、收斂速度慢和不穩(wěn)定的問(wèn)題,如第一節(jié)所述。
為了解決這些問(wèn)題,溫等人。[28]提出了中心損失,即同時(shí)學(xué)習(xí)每個(gè)類(lèi)的一個(gè)中心,并懲罰學(xué)習(xí)到的特征向量與其對(duì)應(yīng)的類(lèi)中心之間的距離。然而,中心損失只考慮了類(lèi)內(nèi)緊性,而沒(méi)有考慮不同類(lèi)別之間的可分性。這可能會(huì)導(dǎo)致不同的類(lèi)中心變得更接近,并可能阻礙DCNN模型學(xué)習(xí)真正的鑒別特征。史等人。[29],[37]提出了最小-最大損失,明確規(guī)定了DCNN模型學(xué)習(xí)的特征向量具有最小類(lèi)間距離和最大類(lèi)間距離。
周和林[5]提出通過(guò)二部圖標(biāo)簽(BGL)來(lái)挖掘不同細(xì)粒度類(lèi)之間的標(biāo)簽關(guān)系。但是,BGL只能處理兩級(jí)層次標(biāo)簽結(jié)構(gòu),不能推廣到多級(jí)標(biāo)簽結(jié)構(gòu)。張某等人。[4]提出了分層標(biāo)簽結(jié)構(gòu)的廣義三重?fù)p失(GTL)。然而,GTL損耗仍然存在著上述三重態(tài)損耗問(wèn)題。
本質(zhì)上,對(duì)比損失、三重?fù)p失和GTL損失都是點(diǎn)對(duì)點(diǎn)度量學(xué)習(xí)損失,而不考慮訓(xùn)練集的總體分布。相反,所提出的GLM損失可以看作是一種集對(duì)集的度量學(xué)習(xí)損失。
3.方法論
A 層次標(biāo)簽結(jié)構(gòu)
在用于細(xì)粒度圖像分類(lèi)的典型基準(zhǔn)數(shù)據(jù)集中,類(lèi)標(biāo)簽根據(jù)其語(yǔ)義分組為樹(shù)結(jié)構(gòu)。圖2。2描述了StanfordCAR數(shù)據(jù)集[1]的兩級(jí)標(biāo)簽結(jié)構(gòu),其中葉節(jié)點(diǎn)和根節(jié)點(diǎn)分別對(duì)應(yīng)于細(xì)粒度標(biāo)簽和粗類(lèi)標(biāo)簽。細(xì)粒度類(lèi)別標(biāo)簽表示某些汽車(chē)制造商(例如,Audi S4轎車(chē)2012、BMW M5轎車(chē)2010、BMW X6 SUV 2012等)的特定型號(hào),這些型號(hào)根據(jù)其車(chē)身類(lèi)型(例如轎車(chē)、SUV等)分組為粗類(lèi)別標(biāo)簽。
具有分層標(biāo)簽結(jié)構(gòu)的圖像數(shù)據(jù)集可以按如下方式進(jìn)行數(shù)學(xué)定義。用T={xi,Ci}ni=1表示訓(xùn)練樣本集,其中xi表示第i個(gè)樣本圖像,n表示訓(xùn)練樣本總數(shù)。每個(gè)樣本圖像XI與類(lèi)標(biāo)簽的層次結(jié)構(gòu)Ci={cji}hj=1相關(guān)聯(lián),其中cji∈{1,2,…,C(J)}是它的第j級(jí)類(lèi)標(biāo)簽,C(J)是j級(jí)中的類(lèi)的數(shù)量,h是層次標(biāo)簽集中的級(jí)別數(shù)。
假設(shè)細(xì)粒度類(lèi)標(biāo)簽是第一級(jí)類(lèi)標(biāo)簽,即c1i是示例XI的細(xì)粒度類(lèi)標(biāo)簽,C(1)是細(xì)粒度類(lèi)的數(shù)量。對(duì)于圖像xi,我們用xi表示dcnn倒數(shù)第二層的輸出1,并將xi看作網(wǎng)絡(luò)提取的xi的特征向量。
提出的細(xì)粒度圖像分類(lèi)框架主要由以下兩個(gè)部分組成:1)修改給定DCNN的網(wǎng)絡(luò)結(jié)構(gòu),并用級(jí)聯(lián)的Softmax損失對(duì)其進(jìn)行訓(xùn)練;2)擴(kuò)展GLM損失。
第II-B-II-D節(jié)詳細(xì)介紹了這兩個(gè)組成部分。
B DCNN改進(jìn)和級(jí)聯(lián)softmax 損失
對(duì)于具有h級(jí)類(lèi)別標(biāo)簽的細(xì)粒度圖像分類(lèi)問(wèn)題,我們對(duì)給定的DCNN模型進(jìn)行了改進(jìn),將其頂層替換為h fc層,并利用級(jí)聯(lián)的Softmax損失函數(shù)對(duì)其進(jìn)行訓(xùn)練。為了簡(jiǎn)化解釋,并且在不丟失一般性的情況下,我們描述了使用AlexNet[38]對(duì)具有兩個(gè)級(jí)別的類(lèi)別標(biāo)簽的圖像數(shù)據(jù)集進(jìn)行分類(lèi)的方法。DCNN對(duì)其它細(xì)粒度圖像分類(lèi)問(wèn)題的修正可以通過(guò)類(lèi)比得到。
最初的AlexNet由五個(gè)卷積(Conv)層(Conv)(Conv)和三個(gè)FC層(fc6-8)組成,fc7和fc8分別作為特征輸出層和頂層fc層。
對(duì)于具有兩個(gè)級(jí)別類(lèi)別標(biāo)簽的圖像,我們將fc8替換為fc8‘和fc9,并將fc9與fc7和fc8’完全連接。我們將從fc7到fc9的連接稱為跳過(guò)連接(參見(jiàn)圖7。3)。fc8‘和fc9的神經(jīng)元數(shù)目分別設(shè)置為C(1)和C(2)。
給定輸入圖像xi,fc8‘和fc9輸出所有葉細(xì)粒度類(lèi)標(biāo)簽c1 i∈{1,2,…,C(1)}的概率分?jǐn)?shù)p(c1 i|xi i)和所有粗粒度類(lèi)標(biāo)簽c 2 i∈{1,2,2,.,C(2)}分別表示XI.
我們引入跳過(guò)連接(fc7→fc9)來(lái)提供粗級(jí)分類(lèi)層(Fc9),以訪問(wèn)所有細(xì)粒度類(lèi)c1 i∈{1,2,…的學(xué)習(xí)特征(fc7的輸出)和預(yù)測(cè)的概率分?jǐn)?shù)p(c1 i|xi i)。C(1)}(fc8‘的輸出)用于輸入圖像X i.。
直觀地說(shuō),使用這兩類(lèi)信息進(jìn)行粗粒度分類(lèi)將優(yōu)于僅使用細(xì)粒度分類(lèi)結(jié)果,因?yàn)榍罢咄瑫r(shí)探索了訓(xùn)練樣本的語(yǔ)義(即學(xué)習(xí)的特征)和層次標(biāo)簽結(jié)構(gòu)。另一方面,在迭代訓(xùn)練過(guò)程中,將fc9的預(yù)測(cè)誤差反推到fc8‘、fc7和網(wǎng)絡(luò)的下層,從而逐步提高fc8’的預(yù)測(cè)精度。
值得注意的是。3只是所提出的框架的一個(gè)例子,該框架使用AlexNet作為兩層分層標(biāo)簽結(jié)構(gòu)。該框架可以推廣到多級(jí)遞階標(biāo)簽結(jié)構(gòu),并且獨(dú)立于任何DCNN結(jié)構(gòu)。圖2。4說(shuō)明了AlexNet對(duì)三級(jí)標(biāo)簽結(jié)構(gòu)的修改。為了簡(jiǎn)單起見(jiàn),我們省略了圖中fc7之前的圖層。4。與最初的AlexNet相比,我們將fc8替換為fc8‘、fc9和fc10。
fc9是fc到fc7和fc8‘,fc10是fc到fc7、fc8’和fc9。fc8‘、fc9和fc10的輸出維數(shù)分別等于底層的細(xì)粒度類(lèi)的數(shù)量和第2層和第3層的粗粒度類(lèi)的數(shù)量。
C 廣義大幅度損失
D 最優(yōu)化
4.實(shí)驗(yàn)評(píng)估
A 整體設(shè)置
為了揭示提出的細(xì)粒度圖像分類(lèi)方法的有效性和通用性,我們使用三種不同網(wǎng)絡(luò)復(fù)雜性的DCNN對(duì)三個(gè)具有層次標(biāo)簽結(jié)構(gòu)的圖像數(shù)據(jù)集,即StanfordCar[1]、FGVC-Aircraft[10]和CUB-200-2011[6]進(jìn)行了綜合實(shí)驗(yàn)評(píng)價(jià)。例如,AlexNet[38]、Google LeNet[41]和VGG[42]。AlexNet包含5個(gè)Conv和3個(gè)FC層,Google LeNet包含22個(gè)conv和1個(gè)FC層,而VGG包含16個(gè)conv和3個(gè)FC層。所有三個(gè)DCNN模型都是使用ImageNet數(shù)據(jù)集[43]進(jìn)行預(yù)訓(xùn)練的。2所有的實(shí)驗(yàn)都是在Caffe平臺(tái)[44]上進(jìn)行的。對(duì)于這些超參數(shù),包括落差比、動(dòng)量和權(quán)重衰減,我們嚴(yán)格遵循原始網(wǎng)絡(luò)設(shè)置。
該方法由兩個(gè)新的部分組成:1)利用級(jí)聯(lián)Softmax損耗訓(xùn)練跳接連接的DCNN修改;2)GLM損耗。為了揭示每個(gè)組件對(duì)性能提高的貢獻(xiàn),我們對(duì)每個(gè)給定的網(wǎng)絡(luò)和數(shù)據(jù)集實(shí)現(xiàn)了以下六種變體。
1)XXX-SM:使用標(biāo)準(zhǔn)Softmax損耗和細(xì)粒度類(lèi)別標(biāo)簽對(duì)原始XXX網(wǎng)絡(luò)進(jìn)行培訓(xùn)。
2)XXX-SM-GLM:使用標(biāo)準(zhǔn)的Softmax損失與細(xì)粒度類(lèi)標(biāo)簽和GLM損失對(duì)原始XXX網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
3)XXX-CSM:利用級(jí)聯(lián)軟最大損耗對(duì)無(wú)跳接的XXX網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
4)XXX-CSM-GLM:利用級(jí)聯(lián)的Softmax損耗和提出的GLM損耗對(duì)改進(jìn)的XXX網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
5)XXX-SC-CSM:利用級(jí)聯(lián)軟最大損耗訓(xùn)練具有跳過(guò)連接的改進(jìn)XXX網(wǎng)絡(luò)。
6)XXX-OUR:使用級(jí)聯(lián)Softmax和GLM損耗訓(xùn)練具有跳過(guò)連接的改進(jìn)型XXX網(wǎng)絡(luò)。
為簡(jiǎn)單起見(jiàn),我們將GLM損失中的所有邊距α1、α2、α3設(shè)置為1。為了獲得λ的最優(yōu)參數(shù)值,我們?cè)隍?yàn)證集上對(duì)其進(jìn)行了調(diào)優(yōu)。具體地說(shuō),從StanfordCAR數(shù)據(jù)集[1]中,我們首先隨機(jī)選擇1000個(gè)訓(xùn)練圖像形成驗(yàn)證集。然后,我們利用剩余的訓(xùn)練圖像來(lái)訓(xùn)練改進(jìn)的alexnet(即alexnet-SM-glm),并使用驗(yàn)證集來(lái)調(diào)整超參數(shù)λ。在驗(yàn)證集上確定超參數(shù)λ之后(λ=0.8),我們修復(fù)它并將其用于所有三個(gè)DCNN模型(AlexNet、Google LeNet和VGG)和三個(gè)圖像數(shù)據(jù)集(StanfordCar、FGVC-Aircraft和CUB200-2011數(shù)據(jù)集)。所有三個(gè)圖像數(shù)據(jù)集都包含每個(gè)目標(biāo)對(duì)象的地面真實(shí)邊界框。為了與以前的研究保持一致,我們還在兩個(gè)實(shí)驗(yàn)設(shè)置下對(duì)所提出的方法進(jìn)行了評(píng)價(jià)。在第一個(gè)設(shè)置中,我們?cè)诓皇褂玫孛嬲鎸?shí)邊界框(簡(jiǎn)稱BBOX)注釋的情況下對(duì)每個(gè)未裁剪樣本進(jìn)行訓(xùn)練和測(cè)試,而在第二個(gè)設(shè)置中,我們使用從分配給每個(gè)樣本的地面真實(shí)邊界框中裁剪的圖像塊來(lái)訓(xùn)練和測(cè)試該方法。
B 數(shù)據(jù)集
1)斯坦福大學(xué)汽車(chē)數(shù)據(jù)集[1]:它包含196個(gè)車(chē)輛類(lèi)別的16185個(gè)圖像,并分為8144個(gè)訓(xùn)練圖像和8041個(gè)測(cè)試圖像,其中每個(gè)類(lèi)大致分為50-50個(gè)類(lèi)別。
數(shù)據(jù)集由兩層類(lèi)標(biāo)簽組成,其中底層包含196個(gè)細(xì)粒度類(lèi),表示特定汽車(chē)制造商的特定模型,如奧迪S4轎車(chē)2012、寶馬X6 SUV 2012等,而頂層包含9個(gè)表示車(chē)身類(lèi)型的粗糙類(lèi),如轎車(chē)、SUV、Coupe等。此數(shù)據(jù)集中的一些示例圖像如圖所示。6.。
2)FGVC-飛機(jī)數(shù)據(jù)集[10]:它包含各種飛機(jī)的10000幅圖像,分為三層標(biāo)簽結(jié)構(gòu)。這三個(gè)層次從下到上分別由100架飛機(jī)變體(如波音737-700、波音737-900)、70個(gè)系列(如波音737、波音747)和30個(gè)制造商(如波音和空中客車(chē))組成。每個(gè)飛行器變體(細(xì)粒度圖像類(lèi))包含100個(gè)圖像。我們采用6667/3333圖像的標(biāo)準(zhǔn)訓(xùn)練/測(cè)試數(shù)據(jù)分割。來(lái)自FGVC-Aircraft數(shù)據(jù)集的示例圖像如圖所示。7.。
3)CUB-20012011年數(shù)據(jù)集[6]:該數(shù)據(jù)集包含11788幅圖像,200種鳥(niǎo)類(lèi),分為三級(jí)標(biāo)簽結(jié)構(gòu),底層有200種,第二層有40個(gè)科,第三層有13個(gè)目。我們采用5994/5794圖像的標(biāo)準(zhǔn)訓(xùn)練/測(cè)試數(shù)據(jù)分割。此數(shù)據(jù)集中的示例圖像如圖所示。8.
表I-III分別顯示了在斯坦福CAR、FGVC-Aircraft和CUB-200-2011測(cè)試集上比較的所有方法的最高分類(lèi)精度。
在表一至表三中,我們列入了第二節(jié)所述的有代表性的方法,并使用了與第二節(jié)相同的縮略語(yǔ)來(lái)報(bào)告其實(shí)驗(yàn)結(jié)果。
此外,我們還比較了第二節(jié)中提到的GLM損耗與對(duì)比損耗[27]、三重態(tài)損耗[23]、中心損耗[28]和最小-最大損耗[29]。
在表I-III中,“XXX-SM-對(duì)比”、“XXX-SM-Triplet”、“XXX-SM-Center Loss”和“XXX-SM-min-max”對(duì)應(yīng)于使用Softmax+對(duì)比損耗、Softmax+三態(tài)損耗、Softmax+中心損耗進(jìn)行培訓(xùn)的XXX網(wǎng)絡(luò),Softmax+min-max損耗。值得注意的是,在有關(guān)對(duì)比損失、三重?fù)p失、中心損失和最小-最大損失的原始文獻(xiàn)中,沒(méi)有關(guān)于這三個(gè)圖像數(shù)據(jù)集的分類(lèi)精度的報(bào)告。這四種方法的結(jié)果都是基于我們自己的實(shí)現(xiàn)產(chǎn)生的。
C 實(shí)驗(yàn)評(píng)價(jià)結(jié)果
從表I-III可以看出,“VGG-OUR”方法優(yōu)于除雙線性-CNN[D,D][11]之外的所有其他方法,而“雙線性-CNN[D,D]-OUR”方法在所有三個(gè)基準(zhǔn)測(cè)試集上都達(dá)到了最佳的分類(lèi)精度。
雙線性CNN[D,D]使用兩個(gè)并行的VGG網(wǎng),而我們的VGG網(wǎng)只使用一個(gè)VGG網(wǎng)。雙線性CNN[D,D]采用兩個(gè)并行的VGG網(wǎng),與我們的VGG網(wǎng)相比,記憶假設(shè)、訓(xùn)練和測(cè)試次數(shù)顯著增加。值得注意的是,我們的方法通過(guò)修改最后一個(gè)FC層并使用CSM+GLM損失函數(shù)來(lái)改進(jìn)給定的DCNN的層次類(lèi)標(biāo)簽結(jié)構(gòu),而雙線性-CNN[D,D][11]使用兩個(gè)獨(dú)立的VGG特征提取器及其輸出特征的外積來(lái)研究輸入圖像不同部分之間的相關(guān)性。因此,可以將這兩種方法結(jié)合起來(lái),進(jìn)一步提高性能精度。我們已經(jīng)將我們提出的方法應(yīng)用于雙線性CNN[D,D],并將實(shí)驗(yàn)結(jié)果分別包含在表I-III中。
在表I-III中,“雙線性-CNN[D,D][11]”是指原始文件[11]中報(bào)告的實(shí)驗(yàn)結(jié)果,“雙線性-CNN[D,D]”是指我們自己的實(shí)驗(yàn)結(jié)果,“雙線性-CNN[D,D]”指的是我們自己的實(shí)驗(yàn)結(jié)果。D]-我們的“是指我們的方法與雙線性CNN[D,D]相結(jié)合的實(shí)驗(yàn)結(jié)果。
可以看出,我們的方法可以進(jìn)一步提高國(guó)家先進(jìn)的雙線性-CNN[D,D]高達(dá)1.4個(gè)百分點(diǎn)。
D λ敏感性的研究
我們對(duì)超參數(shù)λ進(jìn)行了敏感性研究,以考察網(wǎng)絡(luò)性能是否隨著λ的變化而發(fā)生很大的變化。為了節(jié)省時(shí)間和計(jì)算資源,我們只使用AlexNet和StanfordCAR數(shù)據(jù)集進(jìn)行此研究。具體地說(shuō),我們將λ設(shè)置為從預(yù)定義范圍中選擇的值,使用斯坦福汽車(chē)訓(xùn)練集上的這些參數(shù)值對(duì)AlexNet進(jìn)行訓(xùn)練,然后報(bào)告斯坦福汽車(chē)測(cè)試集上的TOP-1分類(lèi)精度。
我們?cè)谒固垢4髮W(xué)的汽車(chē)數(shù)據(jù)集上運(yùn)行alexnet-SM-glm,其λ從0.2到1.4不等,步長(zhǎng)為0.2。表四顯示了最高的1級(jí)分類(lèi)精度。從表IV中可以看出,通過(guò)改變?chǔ)说闹?#xff0c;性能并沒(méi)有太大的變化。
5 結(jié)論
為了提高細(xì)粒度圖像的分類(lèi)精度,提出了一種新的基于DCNN的分類(lèi)框架。我們從以下兩個(gè)方面提高了DCNN模型的細(xì)粒度圖像分類(lèi)精度。首先,我們引入h-fc層來(lái)代替給定的DCNN模型的頂層fc層,并用級(jí)聯(lián)的Softmax損失對(duì)其進(jìn)行訓(xùn)練,以更好地模擬細(xì)粒度圖像類(lèi)的h-level層次標(biāo)簽結(jié)構(gòu)。其次,我們提出了GLM損失,使給定的DCNN模型顯式地探索了細(xì)粒度圖像類(lèi)的層次標(biāo)簽結(jié)構(gòu)和相似規(guī)律。提出的細(xì)粒度圖像分類(lèi)框架是獨(dú)立于DCNN結(jié)構(gòu)的。針對(duì)細(xì)粒度圖像分類(lèi)任務(wù),利用三個(gè)基準(zhǔn)數(shù)據(jù)對(duì)幾種常用的DCNN模型進(jìn)行了綜合實(shí)驗(yàn)評(píng)價(jià),驗(yàn)證了該方法的有效性。
總結(jié)
以上是生活随笔為你收集整理的使用级联Softmax和广义大幅度损失训练的改进DCNN进行细粒度图像分类的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 我如何选PHP开发工具(PHP IDE)
- 下一篇: 关键信息基础设施定义及步骤