當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

使用级联Softmax和广义大幅度损失训练的改进DCNN进行细粒度图像分类

發(fā)布時(shí)間：2023/12/20 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了使用级联Softmax和广义大幅度损失训练的改进DCNN进行细粒度图像分类小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

摘要：

利用一般的深卷積神經(jīng)網(wǎng)絡(luò)(DCNN)設(shè)計(jì)了一種細(xì)粒度的圖像分類(lèi)器。我們從以下兩個(gè)方面提高了DCNN模型的細(xì)粒度圖像分類(lèi)精度。首先，為了更好地建模包含在給定訓(xùn)練數(shù)據(jù)集中的細(xì)粒度圖像類(lèi)的h級(jí)分層標(biāo)簽結(jié)構(gòu)，我們引入h完全連接(Fc)層來(lái)代替給定DCNN模型的頂層fc層，并用級(jí)聯(lián)Softmax損失對(duì)其進(jìn)行訓(xùn)練。
其次，我們提出了一種新的損失函數(shù)，即廣義大邊界損失(GLM)損失，使給定的DCNN模型能夠顯式地探索細(xì)粒度圖像類(lèi)的層次標(biāo)簽結(jié)構(gòu)和相似規(guī)律。GLM損失不僅減少了DCNN模型學(xué)習(xí)特征的類(lèi)間相似度和類(lèi)內(nèi)方差，而且使屬于同一粗類(lèi)的子類(lèi)在特征空間中比屬于不同粗類(lèi)的子類(lèi)更加相似。此外，所提出的細(xì)粒度圖像分類(lèi)框架是獨(dú)立的，適用于任何DCNN結(jié)構(gòu)。利用三個(gè)基準(zhǔn)數(shù)據(jù)集(StanfordCar、細(xì)粒度視覺(jué)分類(lèi)飛機(jī)和CUB-200-2011)對(duì)幾種常用的DCNN模型(AlexNet、Google LeNet和VGG)進(jìn)行了綜合實(shí)驗(yàn)評(píng)估，驗(yàn)證了該方法的有效性。

關(guān)鍵詞：級(jí)聯(lián)Softmax損失，深卷積神經(jīng)網(wǎng)絡(luò)(DCNN)，細(xì)粒度圖像分類(lèi)，廣義大邊界(GLM)損失，分層標(biāo)簽結(jié)構(gòu)。

1.引言：

細(xì)粒度圖像分類(lèi)的目的是識(shí)別某些基類(lèi)的子類(lèi)，如不同模型的CARS[1]-[5]、鳥(niǎo)類(lèi)的種類(lèi)[5]-[9]、飛機(jī)的變體[10]、[11]等。它具有廣泛的應(yīng)用，如視頻監(jiān)控車(chē)輛模型識(shí)別、細(xì)粒度圖像內(nèi)容標(biāo)注、垂直搜索等。細(xì)粒度圖像分類(lèi)面臨的挑戰(zhàn)主要來(lái)自兩個(gè)方面：類(lèi)間相似性和類(lèi)內(nèi)方差[12]-[16]。
一方面，不同細(xì)粒度類(lèi)之間的視覺(jué)差異可能非常小且微妙。另一方面，由于位置、視點(diǎn)、姿勢(shì)、照明條件等的不同，屬于同一細(xì)粒度類(lèi)的實(shí)例可能具有明顯的不同外觀。例如，圖中所示的“加利福尼亞海鷗”。1(A)在視覺(jué)上與圖中的“環(huán)嘴鷗”非常相似。1(B)，它們之間唯一顯著的區(qū)別在于它們喙上的圖案。同時(shí)，由于姿態(tài)、視點(diǎn)和光照條件的不同，不同圖像中的“加利福尼亞海鷗”(如“環(huán)嘴鷗”)呈現(xiàn)出明顯的不同外觀。

對(duì)于細(xì)粒度的圖像分類(lèi)任務(wù)，文獻(xiàn)[17]-[20]中提出了許多基于部分的分類(lèi)方法。
這些方法首先檢測(cè)目標(biāo)對(duì)象的不同部分，然后對(duì)局部部分的外觀進(jìn)行建模，以增加類(lèi)間的識(shí)別率，同時(shí)減小類(lèi)內(nèi)的差異。例如，對(duì)于細(xì)粒度的鳥(niǎo)類(lèi)分類(lèi)，張等。[18]建議學(xué)習(xí)頭部、喙和身體等零件的外觀模型，并強(qiáng)制執(zhí)行它們之間的幾何約束。然而，基于零件的方法依賴于精確的零件檢測(cè)，這是另一個(gè)具有挑戰(zhàn)性的問(wèn)題，在存在遮擋和較大視點(diǎn)/姿態(tài)變化的情況下可能會(huì)失敗。此外，部件的檢測(cè)器通常以有監(jiān)督的方式進(jìn)行訓(xùn)練，這需要足夠多的訓(xùn)練樣本。顯然，與指定細(xì)粒度的圖像標(biāo)簽相比，標(biāo)注對(duì)象部分更具挑戰(zhàn)性，也更昂貴。

最近的許多研究工作[4]，[21]-[25]利用新的損失函數(shù)訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)，如對(duì)比損失[26]，[27]，三重?fù)p失[23]等，來(lái)學(xué)習(xí)能夠最小化類(lèi)內(nèi)方差，同時(shí)最大化類(lèi)間距離的特征。然而，當(dāng)構(gòu)成給定訓(xùn)練集的樣本對(duì)或樣本三胞胎時(shí)，對(duì)比和三胞胎損失都會(huì)受到數(shù)據(jù)擴(kuò)展的影響。此外，據(jù)報(bào)告，構(gòu)成訓(xùn)練樣本對(duì)或三對(duì)樣本的方式會(huì)對(duì)DCNN模型的性能精度產(chǎn)生幾個(gè)百分點(diǎn)的重大影響[23]、[28]。因此，使用這種損失可能會(huì)導(dǎo)致模型收斂較慢、計(jì)算成本較高、訓(xùn)練復(fù)雜性增加和不確定性。

有研究工作提出了新的損失函數(shù)或?qū)ｉT(mén)的CNN結(jié)構(gòu)，以利用不同細(xì)粒度類(lèi)別之間的標(biāo)簽關(guān)系[4]、[5]、[28]、[29]或探討輸入圖像不同部分之間的相關(guān)性[11]。這些方法在細(xì)粒度圖像分類(lèi)的各種基準(zhǔn)數(shù)據(jù)集上都達(dá)到了最新的分類(lèi)精度。
在本文中，我們開(kāi)發(fā)了一個(gè)細(xì)粒度的圖像分類(lèi)器使用一個(gè)通用的DCNN。我們?cè)噲D從以下兩個(gè)方面提高DCNN模型的細(xì)粒度圖像分類(lèi)精度。首先，為了更好地對(duì)細(xì)粒度圖像類(lèi)的h級(jí)層次標(biāo)簽結(jié)構(gòu)進(jìn)行建模，我們將給定的DCNN模型的頂完全連接(FC)層替換為h FC層，每個(gè)層對(duì)應(yīng)于分層標(biāo)簽結(jié)構(gòu)的相應(yīng)層次。h fc層中的每一層都是到其下層和功能輸出層的fc，并使用來(lái)自相應(yīng)標(biāo)簽層次結(jié)構(gòu)的標(biāo)簽的Softmax丟失進(jìn)行訓(xùn)練。本文將用于訓(xùn)練h FC層的h Softmax損耗稱為級(jí)聯(lián)Softmax損耗。
其次，我們提出了一種新的損失函數(shù)，即廣義大邊界損失(GLM)，它明確地研究了細(xì)粒度圖像類(lèi)的層次標(biāo)簽結(jié)構(gòu)和相似規(guī)律。更具體地說(shuō)，對(duì)于每個(gè)給定的細(xì)粒度類(lèi)c，我們將剩余的細(xì)粒度類(lèi)分為兩個(gè)組SP?和nSP?，這兩個(gè)組分別由與c共享和不共享相同粗粒度(父)類(lèi)的細(xì)粒度類(lèi)組成。Glm損失明確地規(guī)定：(1)c與sp?中最近的細(xì)粒度類(lèi)之間的距離比c的類(lèi)內(nèi)方差大一個(gè)預(yù)定義的邊界；(2)c與其最近的細(xì)粒度類(lèi)?之間的距離大于c與其最遠(yuǎn)細(xì)粒度之間的距離(p<0.05)；(2)c與其最近的細(xì)粒度類(lèi)?之間的距離大于c?與其最遠(yuǎn)細(xì)粒度之間的距離。-SP?中的粒度類(lèi).

本文的主要貢獻(xiàn)如下。
(1)引入h-fc層來(lái)代替給定DCNN模型的頂層fc層，并用級(jí)聯(lián)的Softmax損失對(duì)其進(jìn)行訓(xùn)練，以更好地模擬細(xì)粒度圖像類(lèi)的h-Level層次標(biāo)簽結(jié)構(gòu)。

(2)提出了GLM損失，使給定的DCNN模型能更好地揭示細(xì)粒度圖像類(lèi)的層次標(biāo)簽結(jié)構(gòu)和相似規(guī)律。

(3)針對(duì)細(xì)粒度圖像分類(lèi)任務(wù)，利用三個(gè)基準(zhǔn)數(shù)據(jù)集對(duì)幾種通用的DCNN模型進(jìn)行了綜合實(shí)驗(yàn)評(píng)價(jià)，驗(yàn)證了該框架的有效性。

本文的其余部分安排如下。
第二節(jié)回顧了相關(guān)工作。第三節(jié)描述了方法，包括分層標(biāo)簽結(jié)構(gòu)、DCNN修改和級(jí)聯(lián)Softmax損失、GLM損失以及我們框架的優(yōu)化。第四節(jié)介紹了實(shí)驗(yàn)評(píng)價(jià)，第五節(jié)是本文的結(jié)論。

2.相關(guān)的工作

提高細(xì)粒度圖像分類(lèi)精度的方法大致可分為以下三類(lèi)：1)基于手工特征的方法；2)基于局部特征的方法；3)基于度量學(xué)習(xí)的方法。本節(jié)回顧每個(gè)類(lèi)別的代表性作品。

A 基于手工特征的方法

Krause等人。[1]提出了利用空間金字塔匹配[30]和局部性約束線性編碼[31]相結(jié)合的方法來(lái)獲得細(xì)粒度圖像分類(lèi)的特征表示。林等人。[11]實(shí)現(xiàn)了一種Fisher向量(FV)尺度不變特征變換(SIFT)方法，該方法首先從輸入圖像中提取SIFT特征[32]，然后利用SIFT特征學(xué)習(xí)高斯混合模型得到輸入圖像的FV，最后訓(xùn)練一對(duì)一線性支持向量機(jī)對(duì)細(xì)粒度圖像進(jìn)行分類(lèi)。

B Part-Based Methods

細(xì)粒度圖像分類(lèi)的一個(gè)關(guān)鍵挑戰(zhàn)是識(shí)別相似細(xì)粒度類(lèi)的圖像之間的細(xì)微外觀差異。許多基于部分的方法已經(jīng)被提出，通過(guò)定位和表示有區(qū)別的對(duì)象部分來(lái)捕捉細(xì)微的差異。
在變形零件模型的基礎(chǔ)上，Zhang等人提出了可變形零件模型。[33]提出了一種可變形部件描述符，一種姿態(tài)規(guī)格化描述符，以便于細(xì)粒度圖像分類(lèi)任務(wù)的進(jìn)行。柴等人。[34]提出了一種共生分割和局部定位模型對(duì)具有細(xì)微差別的圖像進(jìn)行分類(lèi)。Krause等人。[35]提出使用“局部化學(xué)習(xí)特征集合”來(lái)檢測(cè)重要的目標(biāo)部件并表示它們的外觀。Branson等人。[17]提出了一種用于細(xì)粒度圖像分類(lèi)的位姿歸一化DCNN。
張某等人。[18]利用R-CNN框架[36]，提出了一種零件識(shí)別模型(PR-CNN)。上述方法的主要缺點(diǎn)是在訓(xùn)練過(guò)程中需要零件的注釋，這比圖像標(biāo)簽的收集成本要高得多。
以一種無(wú)監(jiān)督的方式探索目標(biāo)零件信息，Lin等人提出了一種新的方法。[11]提出了一種雙線性結(jié)構(gòu)(稱為雙線性-CNN)，該結(jié)構(gòu)使用兩個(gè)獨(dú)立的DCNN特征提取器，其輸出在所產(chǎn)生的特征映射的每個(gè)位置利用外積相乘，并匯集在一起以獲得一個(gè)圖像描述符。到目前為止，雙線性-CNN已經(jīng)在幾個(gè)用于細(xì)粒度圖像分類(lèi)的基準(zhǔn)數(shù)據(jù)集上達(dá)到了最新的分類(lèi)精度。然而，兩個(gè)并行的DCNN的使用顯著增加了記憶假設(shè)和該方法的培訓(xùn)和測(cè)試成本。

C 基于度量學(xué)習(xí)方法

此類(lèi)別中的方法嘗試學(xué)習(xí)特征度量，以便將來(lái)自同一類(lèi)的圖像拉近，而將來(lái)自不同類(lèi)的圖像在所學(xué)習(xí)的特征空間中彼此推開(kāi)。人們提出了許多損失函數(shù)來(lái)改進(jìn)CNN的度量學(xué)習(xí)性能。為了列舉一些例子，對(duì)比損失[26]、[27]要求來(lái)自不同類(lèi)別的兩個(gè)圖像樣本之間的距離要比來(lái)自同一類(lèi)別的兩個(gè)樣本之間的距離大一個(gè)預(yù)定義的范圍。三胞胎的損失[23]構(gòu)成了訓(xùn)練過(guò)程中訓(xùn)練集中的大量三胞胎。每個(gè)三元組包含一個(gè)錨點(diǎn)樣本A、一個(gè)正樣本P和一個(gè)負(fù)樣本N，其中A和P來(lái)自同一類(lèi)別，而A和N來(lái)自兩個(gè)不同的類(lèi)別。它規(guī)定A和N之間的距離必須比A和P之間的距離大一個(gè)預(yù)定義的邊距。在使用對(duì)比損失或三重?fù)p失訓(xùn)練CNN時(shí)，它們面臨著數(shù)據(jù)擴(kuò)展劇烈、收斂速度慢和不穩(wěn)定的問(wèn)題，如第一節(jié)所述。

為了解決這些問(wèn)題，溫等人。[28]提出了中心損失，即同時(shí)學(xué)習(xí)每個(gè)類(lèi)的一個(gè)中心，并懲罰學(xué)習(xí)到的特征向量與其對(duì)應(yīng)的類(lèi)中心之間的距離。然而，中心損失只考慮了類(lèi)內(nèi)緊性，而沒(méi)有考慮不同類(lèi)別之間的可分性。這可能會(huì)導(dǎo)致不同的類(lèi)中心變得更接近，并可能阻礙DCNN模型學(xué)習(xí)真正的鑒別特征。史等人。[29]，[37]提出了最小-最大損失，明確規(guī)定了DCNN模型學(xué)習(xí)的特征向量具有最小類(lèi)間距離和最大類(lèi)間距離。
周和林[5]提出通過(guò)二部圖標(biāo)簽(BGL)來(lái)挖掘不同細(xì)粒度類(lèi)之間的標(biāo)簽關(guān)系。但是，BGL只能處理兩級(jí)層次標(biāo)簽結(jié)構(gòu)，不能推廣到多級(jí)標(biāo)簽結(jié)構(gòu)。張某等人。[4]提出了分層標(biāo)簽結(jié)構(gòu)的廣義三重?fù)p失(GTL)。然而，GTL損耗仍然存在著上述三重態(tài)損耗問(wèn)題。
本質(zhì)上，對(duì)比損失、三重?fù)p失和GTL損失都是點(diǎn)對(duì)點(diǎn)度量學(xué)習(xí)損失，而不考慮訓(xùn)練集的總體分布。相反，所提出的GLM損失可以看作是一種集對(duì)集的度量學(xué)習(xí)損失。

3.方法論

A 層次標(biāo)簽結(jié)構(gòu)

在用于細(xì)粒度圖像分類(lèi)的典型基準(zhǔn)數(shù)據(jù)集中，類(lèi)標(biāo)簽根據(jù)其語(yǔ)義分組為樹(shù)結(jié)構(gòu)。圖2。2描述了StanfordCAR數(shù)據(jù)集[1]的兩級(jí)標(biāo)簽結(jié)構(gòu)，其中葉節(jié)點(diǎn)和根節(jié)點(diǎn)分別對(duì)應(yīng)于細(xì)粒度標(biāo)簽和粗類(lèi)標(biāo)簽。細(xì)粒度類(lèi)別標(biāo)簽表示某些汽車(chē)制造商(例如，Audi S4轎車(chē)2012、BMW M5轎車(chē)2010、BMW X6 SUV 2012等)的特定型號(hào)，這些型號(hào)根據(jù)其車(chē)身類(lèi)型(例如轎車(chē)、SUV等)分組為粗類(lèi)別標(biāo)簽。

具有分層標(biāo)簽結(jié)構(gòu)的圖像數(shù)據(jù)集可以按如下方式進(jìn)行數(shù)學(xué)定義。用T={xi，Ci}ni=1表示訓(xùn)練樣本集，其中xi表示第i個(gè)樣本圖像，n表示訓(xùn)練樣本總數(shù)。每個(gè)樣本圖像XI與類(lèi)標(biāo)簽的層次結(jié)構(gòu)Ci={cji}hj=1相關(guān)聯(lián)，其中cji∈{1，2，…，C(J)}是它的第j級(jí)類(lèi)標(biāo)簽，C(J)是j級(jí)中的類(lèi)的數(shù)量，h是層次標(biāo)簽集中的級(jí)別數(shù)。
假設(shè)細(xì)粒度類(lèi)標(biāo)簽是第一級(jí)類(lèi)標(biāo)簽，即c1i是示例XI的細(xì)粒度類(lèi)標(biāo)簽，C(1)是細(xì)粒度類(lèi)的數(shù)量。對(duì)于圖像xi，我們用xi表示dcnn倒數(shù)第二層的輸出1，并將xi看作網(wǎng)絡(luò)提取的xi的特征向量。

提出的細(xì)粒度圖像分類(lèi)框架主要由以下兩個(gè)部分組成：1)修改給定DCNN的網(wǎng)絡(luò)結(jié)構(gòu)，并用級(jí)聯(lián)的Softmax損失對(duì)其進(jìn)行訓(xùn)練；2)擴(kuò)展GLM損失。
第II-B-II-D節(jié)詳細(xì)介紹了這兩個(gè)組成部分。

B DCNN改進(jìn)和級(jí)聯(lián)softmax 損失

對(duì)于具有h級(jí)類(lèi)別標(biāo)簽的細(xì)粒度圖像分類(lèi)問(wèn)題，我們對(duì)給定的DCNN模型進(jìn)行了改進(jìn)，將其頂層替換為h fc層，并利用級(jí)聯(lián)的Softmax損失函數(shù)對(duì)其進(jìn)行訓(xùn)練。為了簡(jiǎn)化解釋，并且在不丟失一般性的情況下，我們描述了使用AlexNet[38]對(duì)具有兩個(gè)級(jí)別的類(lèi)別標(biāo)簽的圖像數(shù)據(jù)集進(jìn)行分類(lèi)的方法。DCNN對(duì)其它細(xì)粒度圖像分類(lèi)問(wèn)題的修正可以通過(guò)類(lèi)比得到。

最初的AlexNet由五個(gè)卷積(Conv)層(Conv)(Conv)和三個(gè)FC層(fc6-8)組成，fc7和fc8分別作為特征輸出層和頂層fc層。
對(duì)于具有兩個(gè)級(jí)別類(lèi)別標(biāo)簽的圖像，我們將fc8替換為fc8‘和fc9，并將fc9與fc7和fc8’完全連接。我們將從fc7到fc9的連接稱為跳過(guò)連接(參見(jiàn)圖7。3)。fc8‘和fc9的神經(jīng)元數(shù)目分別設(shè)置為C(1)和C(2)。
給定輸入圖像xi，fc8‘和fc9輸出所有葉細(xì)粒度類(lèi)標(biāo)簽c1 i∈{1，2，…，C(1)}的概率分?jǐn)?shù)p(c1 i|xi i)和所有粗粒度類(lèi)標(biāo)簽c 2 i∈{1，2，2，.，C(2)}分別表示XI.

我們引入跳過(guò)連接(fc7→fc9)來(lái)提供粗級(jí)分類(lèi)層(Fc9)，以訪問(wèn)所有細(xì)粒度類(lèi)c1 i∈{1，2，…的學(xué)習(xí)特征(fc7的輸出)和預(yù)測(cè)的概率分?jǐn)?shù)p(c1 i|xi i)。C(1)}(fc8‘的輸出)用于輸入圖像X i.。
直觀地說(shuō)，使用這兩類(lèi)信息進(jìn)行粗粒度分類(lèi)將優(yōu)于僅使用細(xì)粒度分類(lèi)結(jié)果，因?yàn)榍罢咄瑫r(shí)探索了訓(xùn)練樣本的語(yǔ)義(即學(xué)習(xí)的特征)和層次標(biāo)簽結(jié)構(gòu)。另一方面，在迭代訓(xùn)練過(guò)程中，將fc9的預(yù)測(cè)誤差反推到fc8‘、fc7和網(wǎng)絡(luò)的下層，從而逐步提高fc8’的預(yù)測(cè)精度。

值得注意的是。3只是所提出的框架的一個(gè)例子，該框架使用AlexNet作為兩層分層標(biāo)簽結(jié)構(gòu)。該框架可以推廣到多級(jí)遞階標(biāo)簽結(jié)構(gòu)，并且獨(dú)立于任何DCNN結(jié)構(gòu)。圖2。4說(shuō)明了AlexNet對(duì)三級(jí)標(biāo)簽結(jié)構(gòu)的修改。為了簡(jiǎn)單起見(jiàn)，我們省略了圖中fc7之前的圖層。4。與最初的AlexNet相比，我們將fc8替換為fc8‘、fc9和fc10。
fc9是fc到fc7和fc8‘，fc10是fc到fc7、fc8’和fc9。fc8‘、fc9和fc10的輸出維數(shù)分別等于底層的細(xì)粒度類(lèi)的數(shù)量和第2層和第3層的粗粒度類(lèi)的數(shù)量。

C 廣義大幅度損失

D 最優(yōu)化

4.實(shí)驗(yàn)評(píng)估
A 整體設(shè)置

為了揭示提出的細(xì)粒度圖像分類(lèi)方法的有效性和通用性，我們使用三種不同網(wǎng)絡(luò)復(fù)雜性的DCNN對(duì)三個(gè)具有層次標(biāo)簽結(jié)構(gòu)的圖像數(shù)據(jù)集，即StanfordCar[1]、FGVC-Aircraft[10]和CUB-200-2011[6]進(jìn)行了綜合實(shí)驗(yàn)評(píng)價(jià)。例如，AlexNet[38]、Google LeNet[41]和VGG[42]。AlexNet包含5個(gè)Conv和3個(gè)FC層，Google LeNet包含22個(gè)conv和1個(gè)FC層，而VGG包含16個(gè)conv和3個(gè)FC層。所有三個(gè)DCNN模型都是使用ImageNet數(shù)據(jù)集[43]進(jìn)行預(yù)訓(xùn)練的。2所有的實(shí)驗(yàn)都是在Caffe平臺(tái)[44]上進(jìn)行的。對(duì)于這些超參數(shù)，包括落差比、動(dòng)量和權(quán)重衰減，我們嚴(yán)格遵循原始網(wǎng)絡(luò)設(shè)置。

該方法由兩個(gè)新的部分組成：1)利用級(jí)聯(lián)Softmax損耗訓(xùn)練跳接連接的DCNN修改；2)GLM損耗。為了揭示每個(gè)組件對(duì)性能提高的貢獻(xiàn)，我們對(duì)每個(gè)給定的網(wǎng)絡(luò)和數(shù)據(jù)集實(shí)現(xiàn)了以下六種變體。

1)XXX-SM：使用標(biāo)準(zhǔn)Softmax損耗和細(xì)粒度類(lèi)別標(biāo)簽對(duì)原始XXX網(wǎng)絡(luò)進(jìn)行培訓(xùn)。

2)XXX-SM-GLM：使用標(biāo)準(zhǔn)的Softmax損失與細(xì)粒度類(lèi)標(biāo)簽和GLM損失對(duì)原始XXX網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

3)XXX-CSM：利用級(jí)聯(lián)軟最大損耗對(duì)無(wú)跳接的XXX網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
4)XXX-CSM-GLM：利用級(jí)聯(lián)的Softmax損耗和提出的GLM損耗對(duì)改進(jìn)的XXX網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

5)XXX-SC-CSM：利用級(jí)聯(lián)軟最大損耗訓(xùn)練具有跳過(guò)連接的改進(jìn)XXX網(wǎng)絡(luò)。

6)XXX-OUR：使用級(jí)聯(lián)Softmax和GLM損耗訓(xùn)練具有跳過(guò)連接的改進(jìn)型XXX網(wǎng)絡(luò)。

為簡(jiǎn)單起見(jiàn)，我們將GLM損失中的所有邊距α1、α2、α3設(shè)置為1。為了獲得λ的最優(yōu)參數(shù)值，我們?cè)隍?yàn)證集上對(duì)其進(jìn)行了調(diào)優(yōu)。具體地說(shuō)，從StanfordCAR數(shù)據(jù)集[1]中，我們首先隨機(jī)選擇1000個(gè)訓(xùn)練圖像形成驗(yàn)證集。然后，我們利用剩余的訓(xùn)練圖像來(lái)訓(xùn)練改進(jìn)的alexnet(即alexnet-SM-glm)，并使用驗(yàn)證集來(lái)調(diào)整超參數(shù)λ。在驗(yàn)證集上確定超參數(shù)λ之后(λ=0.8)，我們修復(fù)它并將其用于所有三個(gè)DCNN模型(AlexNet、Google LeNet和VGG)和三個(gè)圖像數(shù)據(jù)集(StanfordCar、FGVC-Aircraft和CUB200-2011數(shù)據(jù)集)。所有三個(gè)圖像數(shù)據(jù)集都包含每個(gè)目標(biāo)對(duì)象的地面真實(shí)邊界框。為了與以前的研究保持一致，我們還在兩個(gè)實(shí)驗(yàn)設(shè)置下對(duì)所提出的方法進(jìn)行了評(píng)價(jià)。在第一個(gè)設(shè)置中，我們?cè)诓皇褂玫孛嬲鎸?shí)邊界框(簡(jiǎn)稱BBOX)注釋的情況下對(duì)每個(gè)未裁剪樣本進(jìn)行訓(xùn)練和測(cè)試，而在第二個(gè)設(shè)置中，我們使用從分配給每個(gè)樣本的地面真實(shí)邊界框中裁剪的圖像塊來(lái)訓(xùn)練和測(cè)試該方法。

B 數(shù)據(jù)集

1)斯坦福大學(xué)汽車(chē)數(shù)據(jù)集[1]：它包含196個(gè)車(chē)輛類(lèi)別的16185個(gè)圖像，并分為8144個(gè)訓(xùn)練圖像和8041個(gè)測(cè)試圖像，其中每個(gè)類(lèi)大致分為50-50個(gè)類(lèi)別。
數(shù)據(jù)集由兩層類(lèi)標(biāo)簽組成，其中底層包含196個(gè)細(xì)粒度類(lèi)，表示特定汽車(chē)制造商的特定模型，如奧迪S4轎車(chē)2012、寶馬X6 SUV 2012等，而頂層包含9個(gè)表示車(chē)身類(lèi)型的粗糙類(lèi)，如轎車(chē)、SUV、Coupe等。此數(shù)據(jù)集中的一些示例圖像如圖所示。6.。
2)FGVC-飛機(jī)數(shù)據(jù)集[10]：它包含各種飛機(jī)的10000幅圖像，分為三層標(biāo)簽結(jié)構(gòu)。這三個(gè)層次從下到上分別由100架飛機(jī)變體(如波音737-700、波音737-900)、70個(gè)系列(如波音737、波音747)和30個(gè)制造商(如波音和空中客車(chē))組成。每個(gè)飛行器變體(細(xì)粒度圖像類(lèi))包含100個(gè)圖像。我們采用6667/3333圖像的標(biāo)準(zhǔn)訓(xùn)練/測(cè)試數(shù)據(jù)分割。來(lái)自FGVC-Aircraft數(shù)據(jù)集的示例圖像如圖所示。7.。
3)CUB-20012011年數(shù)據(jù)集[6]：該數(shù)據(jù)集包含11788幅圖像，200種鳥(niǎo)類(lèi)，分為三級(jí)標(biāo)簽結(jié)構(gòu)，底層有200種，第二層有40個(gè)科，第三層有13個(gè)目。我們采用5994/5794圖像的標(biāo)準(zhǔn)訓(xùn)練/測(cè)試數(shù)據(jù)分割。此數(shù)據(jù)集中的示例圖像如圖所示。8.

表I-III分別顯示了在斯坦福CAR、FGVC-Aircraft和CUB-200-2011測(cè)試集上比較的所有方法的最高分類(lèi)精度。
在表一至表三中，我們列入了第二節(jié)所述的有代表性的方法，并使用了與第二節(jié)相同的縮略語(yǔ)來(lái)報(bào)告其實(shí)驗(yàn)結(jié)果。
此外，我們還比較了第二節(jié)中提到的GLM損耗與對(duì)比損耗[27]、三重態(tài)損耗[23]、中心損耗[28]和最小-最大損耗[29]。
在表I-III中，“XXX-SM-對(duì)比”、“XXX-SM-Triplet”、“XXX-SM-Center Loss”和“XXX-SM-min-max”對(duì)應(yīng)于使用Softmax+對(duì)比損耗、Softmax+三態(tài)損耗、Softmax+中心損耗進(jìn)行培訓(xùn)的XXX網(wǎng)絡(luò)，Softmax+min-max損耗。值得注意的是，在有關(guān)對(duì)比損失、三重?fù)p失、中心損失和最小-最大損失的原始文獻(xiàn)中，沒(méi)有關(guān)于這三個(gè)圖像數(shù)據(jù)集的分類(lèi)精度的報(bào)告。這四種方法的結(jié)果都是基于我們自己的實(shí)現(xiàn)產(chǎn)生的。

C 實(shí)驗(yàn)評(píng)價(jià)結(jié)果

從表I-III可以看出，“VGG-OUR”方法優(yōu)于除雙線性-CNN[D，D][11]之外的所有其他方法，而“雙線性-CNN[D，D]-OUR”方法在所有三個(gè)基準(zhǔn)測(cè)試集上都達(dá)到了最佳的分類(lèi)精度。
雙線性CNN[D，D]使用兩個(gè)并行的VGG網(wǎng)，而我們的VGG網(wǎng)只使用一個(gè)VGG網(wǎng)。雙線性CNN[D，D]采用兩個(gè)并行的VGG網(wǎng)，與我們的VGG網(wǎng)相比，記憶假設(shè)、訓(xùn)練和測(cè)試次數(shù)顯著增加。值得注意的是，我們的方法通過(guò)修改最后一個(gè)FC層并使用CSM+GLM損失函數(shù)來(lái)改進(jìn)給定的DCNN的層次類(lèi)標(biāo)簽結(jié)構(gòu)，而雙線性-CNN[D，D][11]使用兩個(gè)獨(dú)立的VGG特征提取器及其輸出特征的外積來(lái)研究輸入圖像不同部分之間的相關(guān)性。因此，可以將這兩種方法結(jié)合起來(lái)，進(jìn)一步提高性能精度。我們已經(jīng)將我們提出的方法應(yīng)用于雙線性CNN[D，D]，并將實(shí)驗(yàn)結(jié)果分別包含在表I-III中。
在表I-III中，“雙線性-CNN[D，D][11]”是指原始文件[11]中報(bào)告的實(shí)驗(yàn)結(jié)果，“雙線性-CNN[D，D]”是指我們自己的實(shí)驗(yàn)結(jié)果，“雙線性-CNN[D，D]”指的是我們自己的實(shí)驗(yàn)結(jié)果。D]-我們的“是指我們的方法與雙線性CNN[D，D]相結(jié)合的實(shí)驗(yàn)結(jié)果。
可以看出，我們的方法可以進(jìn)一步提高國(guó)家先進(jìn)的雙線性-CNN[D，D]高達(dá)1.4個(gè)百分點(diǎn)。

D λ敏感性的研究

我們對(duì)超參數(shù)λ進(jìn)行了敏感性研究，以考察網(wǎng)絡(luò)性能是否隨著λ的變化而發(fā)生很大的變化。為了節(jié)省時(shí)間和計(jì)算資源，我們只使用AlexNet和StanfordCAR數(shù)據(jù)集進(jìn)行此研究。具體地說(shuō)，我們將λ設(shè)置為從預(yù)定義范圍中選擇的值，使用斯坦福汽車(chē)訓(xùn)練集上的這些參數(shù)值對(duì)AlexNet進(jìn)行訓(xùn)練，然后報(bào)告斯坦福汽車(chē)測(cè)試集上的TOP-1分類(lèi)精度。

我們?cè)谒固垢４髮W(xué)的汽車(chē)數(shù)據(jù)集上運(yùn)行alexnet-SM-glm，其λ從0.2到1.4不等，步長(zhǎng)為0.2。表四顯示了最高的1級(jí)分類(lèi)精度。從表IV中可以看出，通過(guò)改變?chǔ)说闹?#xff0c;性能并沒(méi)有太大的變化。

5 結(jié)論

為了提高細(xì)粒度圖像的分類(lèi)精度，提出了一種新的基于DCNN的分類(lèi)框架。我們從以下兩個(gè)方面提高了DCNN模型的細(xì)粒度圖像分類(lèi)精度。首先，我們引入h-fc層來(lái)代替給定的DCNN模型的頂層fc層，并用級(jí)聯(lián)的Softmax損失對(duì)其進(jìn)行訓(xùn)練，以更好地模擬細(xì)粒度圖像類(lèi)的h-level層次標(biāo)簽結(jié)構(gòu)。其次，我們提出了GLM損失，使給定的DCNN模型顯式地探索了細(xì)粒度圖像類(lèi)的層次標(biāo)簽結(jié)構(gòu)和相似規(guī)律。提出的細(xì)粒度圖像分類(lèi)框架是獨(dú)立于DCNN結(jié)構(gòu)的。針對(duì)細(xì)粒度圖像分類(lèi)任務(wù)，利用三個(gè)基準(zhǔn)數(shù)據(jù)對(duì)幾種常用的DCNN模型進(jìn)行了綜合實(shí)驗(yàn)評(píng)價(jià)，驗(yàn)證了該方法的有效性。

總結(jié)

以上是生活随笔為你收集整理的使用级联Softmax和广义大幅度损失训练的改进DCNN进行细粒度图像分类的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：我如何选PHP开发工具(PHP IDE)
下一篇：关键信息基础设施定义及步骤

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

使用级联Softmax和广义大幅度损失训练的改进DCNN进行细粒度图像分类

總結(jié)