當前位置：首頁 >

论文阅读(1)--Fine-grained Image Classification by Exploring Bipartite-Graph Labels

發布時間：2023/12/10 64 豆豆

生活随笔收集整理的這篇文章主要介紹了论文阅读(1)--Fine-grained Image Classification by Exploring Bipartite-Graph Labels 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

這是閱讀《Fine-grained Image Classification by Exploring Bipartite-Graph Labels》這篇論文所做的筆記。

這篇論文是來自NEC實驗室，是一篇有關細粒度分類/精細分類方面的論文。

0. 摘要

首先提出一個問題，給定一張食物的圖片，對于一個細粒度物體識別機器是否可以給出該食物是屬于哪家飯店以及其食物名稱。這是一個超細粒度圖片識別問題，也是許多根據圖片進行搜索的關鍵問題，但是由于訓練數據缺乏，這個問題變得非常有挑戰性，需要能識別出類間的非常微小的差異。不過，論文給出一個觀點，the ultra-fine granularity naturally brings rich relationships among object classes，也就是說這種超細粒度在類間是有著豐富的關聯的。基于這個觀點，論文提出一種新的方法來利用這種關聯，方法稱為bipartite-graph labels (BGL)，雙偶圖標記。然后論文會展示如何在卷積神經網絡上使用這個方法，并且這種方法會由于其雙邊結構而提高計算效率，然后還建立了一個來自6家飯店，總共975個類別，37885張圖片的數據庫，會對這個數據庫以及其他三個數據庫使用這個方法，并且實驗結果都是有所提高的。

1. 介紹

首先是列舉了十來篇論文是有關細粒度分類的論文，包括狗，鳥，花卉，植物，車，食物，衣服，字體等說明細粒度圖像分類的任務是對一些基類在縱向上的分類，或者說就是將這些基類比如狗，要進行更細致的劃分，其難點就是這些子類的區別相比基類的分類要更加不明顯，更加細微，但是細粒度物體分類是非常有用的。
在最近幾年，一般的圖像分類是取得非常大的突破，但是對于超細粒度圖片的識別還是依舊很有挑戰性。這里列舉了下面這張圖片的例子，其問題也是摘要部分提出來的，如何識別圖中的三個食物分別是來自哪家飯店，分別叫什么名字。

所以這里提出了對于超細粒度分類在兩方面的挑戰。

不同類別的物體在視覺上非常相似；比如上圖中第一幅圖片與第三幅圖片看起來很相似，但是兩者是屬于不同飯店的。

每個類別由于其超細粒度的原因，不一定具有足夠的訓練圖片

因此，如何在保持明顯的區分性前提下，在相似的類間分享信息，就變得更加矛盾了。

基于這個目的，論文提出了BGL的方法。該方法是有以下幾個優點：

BGL方法可以利用額外的約束來歸一化CNN的訓練過程，因此對于數量不大的訓練集是可以大大降低過擬合的概率

在已知類別是屬于同一個比較粗略的類或者是分享一些相同屬性的情況下，可以允許我們從相關的其他類別借用一些知識。（這個原話是Knowing classes that belong to the same coarse category or share some common attributes can allow us to borrow some knowledge from relevant classes，還不是很了解這句話的意思）

通過全局的反向傳播來進行監督性特征學習可以在相似的類別中捕抓到細微的差異從而學習到具有區分性的特征

最后一點是將結構限制為雙偶圖(bipartite graphs)，BGL方法在推理階段就使用窮舉法避免了指數爆炸增長的問題（這個優點應該是針對計算效率問題吧）

目前在細粒度分類方法，主要研究方向是學習更有區分性的特征，這個可以通過調整物理的姿勢或者位置，或者是通過物體分割方法過濾掉背景。而BGL方法可以結合上述方法之一，來獲得一個更好的效果。

2. 相關工作

這部分內容，論文會介紹在細粒度圖像分類和結構標簽學習（structural label learning）兩方面的研究現狀。

2.1 細粒度圖像分類

細粒度分類需要解決的問題就是在相似類別中辨別細微的差異。因此，現在大部分方法都是集中在局部化以及描述在精細區域的有區分性的物體部件。
具體說來，有這些方法。第一種是需要調整姿勢的會結合一些二維或者三維圖片，其用于識別鳥類，狗和車，但是其主要缺點就是對這些部件的標注是非常有挑戰性的；第二種方法是通過無監督或者半監督方式來尋找物體的部件。這種方法就有比較多不同的具體實施方法，有結合對齊和分割方法來產生所需的部件的，也有使用兩個獨立的CNN特征提取器，還有使用一個新的能嵌入已存在的卷積結構中，然后在空間上轉換feature maps的。
在第一部分中也說了，還有一個方向其實就是通過分割和檢測方法來過濾掉有噪聲和雜亂的背景，以此獲得更好的特征。但是這種方法由于需要額外進行圖像分割，而分割是有很大計算量的，所以這種方法最大缺點就是計算量大了。
最后也提及到最近還有其他取得更好效果的方法，而這些方法都是有可能跟BGL方法相結合來獲得一個更好效果的。

2.2 結構標簽學習（structural label learning）

目前大多數任務都是單標簽的分類問題，但是對現實世界的圖片使用像標簽或者屬性一樣的多個標簽來描述才是更自然的。現在有關結構標簽學習的相關工作可以粗略地分為學習二進制，相對的或者分層屬性。

一部分工作是主要學習二進制屬性，也就是表示圖片中是否存在某個屬性。這些工作包括有人臉驗證，紋理識別，衣服搜索等，但是當對于物體屬性是連續的或者是模糊不清的時候，二進制屬性就會受到限制。

為了解決二進制屬性的缺陷，在過去幾年更多任務使用到了對比屬性。學習相對屬性的方法是對每種屬性都學習一個全局的線性排序函數，在語義上提高一個更加豐富的方法來描述和對比物體。但是看起來是很有前途的一個方向，在遇到細粒度視覺比較的時候卻是沒有得到很好的效果。

論文的方法BGL是采用第三種策略，也就是在細粒度標簽和屬性間的關系是通過分層方式在塑造的。(Our method falls into the third category where the relation between the fine-grained labels and attributes is modeled in a hierarchical manner.)跟其他相關的工作相比，論文的不同點在時基于CNN的框架，同時其主要集中在多標簽的物體。這里是有幾篇論文的工作是有點相似，但是論文也分別給出比這幾篇論文要更勝一籌的內容。

3. CNN with Bipartite-Graph Labels

第三部分會介紹論文提出的BGL方法，基于一個普通的多類卷積神經網絡框架，其網絡結構相比于現在流行的幾個結構，如AlexNet,GoogLeNet和VGGNet，只是修改了softmax層和最后一個全連接層以便于使用BGL方法，同時通過一個全局的反向傳播來優化。

這部分主要就是說明如何修改softmax層和最后一個全連接層,因為涉及到原理，所以也是有不少數學公式，主要就是增加了一個粗略分類（coarse label）的標簽，然后設計公式表示這種粗略分類標簽和初始圖片的標簽(fine-grained label)之間的關聯。然后就是如何通過反向傳播來進行優化效果。

4. 小結

論文在第四部分就是介紹實驗部分，其實驗用了4個數據庫，除了在摘要部分介紹的食物數據庫，還用了兩個有關車的數據庫和一個鳥類的數據庫，均都是比標準結果，也就是使用正常的卷積神經網絡結構，如AlexNet等的效果要有所提高。

大概簡單看完這篇論文，對于實現原理還需要好好看看，但是看完感覺就是這篇論文的思路應該是雖然要做細粒度分類，但它是從使用這些分類的基類來考慮的，因為一開始給的類別標簽算是分得更加細了，比如一開始摘要部分的圖中幾種都是屬于豆腐的不同做法，論文就考慮再給出一個更粗略分類，比如豆腐，這樣對于相似的類，可以共享一些信息，畢竟這種精細分類問題，在相似的類別中，是有很大部分信息是相同的，可能是極小部分區域的差別才導致兩者屬于不同類別，所以這篇論文就應該是從這個角度去思考，同時這種做法也可以降低對數據量的需求。跟當前主流做法相比，是另辟蹊徑了。

總結

以上是生活随笔為你收集整理的论文阅读(1)--Fine-grained Image Classification by Exploring Bipartite-Graph Labels的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：计算机手抄报word文档,Word制作电
下一篇：你还在使用fastjson，可以尝试js