CVPR 2019 | 旷视研究院提出ML-GCN:基于图卷积网络的多标签图像识别模型
全球計算機視覺三大頂會之一?CVPR?2019?(IEEE?Conference?on?Computer?Visionand?Pattern?Recognition)將于?6?月?16-20在美國洛杉磯如期而至。屆時,曠視首席科學家、研究院院長孫劍博士將帶領團隊遠赴盛會,助力計算機視覺技術的交流與落地。在此之前,曠視每周會推出一篇?CVPR'19?接收論文解讀文章。本文是第?5?篇,曠視南京研究院提出了一種基于圖卷積網(wǎng)絡的多標簽識別模型?ML-GCN?以及一種構(gòu)建相關系數(shù)矩陣的二次加權(quán)方法。
論文名稱:Multi-Label Image Recognition with Graph Convolutional Networks
論文鏈接:https://arxiv.org/abs/1904.03582
導語
介紹
方法
動機
圖卷積網(wǎng)絡簡介
用于多標簽識別的GCN
相關系數(shù)矩陣
實驗
MS-COCO實驗結(jié)果
VOC 2007實驗結(jié)果
分類器可視化
在圖像檢索上的表現(xiàn)
結(jié)論
參考文獻
往期解讀
?
導語
?
多標簽圖像識別(multi-label?image?recognition)任務的目標是預測一張圖像中出現(xiàn)的多個物體標簽,其在搜索引擎、推薦系統(tǒng)中應用廣泛,長期以來作為計算機視覺和機器學習領域一項基礎研究課題備受學界業(yè)界關注。
由于多個相關物體通常同時出現(xiàn)在一副圖像之中,因此提升識別性能的一個理想方法就是針對多標記識別的核心問題,即“如何有效建模標記間的協(xié)同關系”進行探索,對標簽之間的依賴性進行有效建模。?
為獲取和利用這種依賴性,曠視研究院提出一種基于圖卷積網(wǎng)絡(Graph?Convolutional?Network,GCN)的多標簽分類模型。該模型通過?data-driven?方式建立標記間有向圖(directed?graph)并由?GCN?將類別標記映射(mapping)為對應類別分類器,以此建模類別關系,同時可提升表示學習能力。?
此外針對?GCN?中的關鍵元素?correlation?matrix?進行了深入分析和重設計,使其更勝任多標記問題。在兩個多標簽圖像識別權(quán)威數(shù)據(jù)集上的實驗結(jié)果顯示,ML-GCN?明顯優(yōu)于目前所有的最佳方法。另外,可視化結(jié)果顯示,模型習得的分類器還能保持有意義的語義拓撲結(jié)構(gòu)。
介紹
多標簽圖像識別是計算機視覺領域的一項基本任務,其目標是識別圖像中存在的一系列對象。這項技術可應用于醫(yī)學診斷識別、人類屬性識別和零售識別等諸多領域。相比于多類別圖像分類,多標簽任務的難度更大,因為其輸出空間隨著類別數(shù)目呈指數(shù)增大。
▲?圖1:通過構(gòu)建目標標簽的有向圖來建模標簽依賴性
由于現(xiàn)實世界中很多物體通常會同時出現(xiàn),因此對標簽之間的相關性進行建模就成了多標簽圖像識別的關鍵,如圖?1?所示。?
解決多標簽識別問題的一個樸素方法是分離地看待各個目標,通過將多標簽問題轉(zhuǎn)換成多組二值分類問題,預測每個目標是否存在。由于深度卷積神經(jīng)網(wǎng)絡在單標簽圖像分類上取得的巨大成功,二值分類的性能已得到極大提升。?
但是這些方法忽視了物體之間復雜的拓撲結(jié)構(gòu),因此在本質(zhì)上有局限性。正是這個缺陷促使研究員尋找能夠獲取并從多個角度探索標簽之間相關性的方法。其中的部分方法基于概率圖模型或循環(huán)神經(jīng)網(wǎng)絡(RNN),可顯式地對標簽依賴性進行建模。?
另一個研究方向是通過注意力機制來對標簽相關性進行隱式建模。該方法考慮的是圖像中被注意區(qū)域之間的關系(可視為局部相關性)。不過即便如此,該方法還是忽略了圖像中標簽之間的全局相關性(全局相關性需要通過單張圖像之外的知識才能推斷出來)。?
為此,曠視研究院提出基于圖卷積網(wǎng)絡(GCN)的全新模型,即?ML-GCN(Multi-Label?Graph?Convolutional?Network),用于建立多標簽之間的相關性,該方法有其它方法無法具備的擴展性和靈活性。?
除了將目標分類器視為一組待學習的獨立參數(shù)向量外,曠視研究院還提出一種可從標簽的先驗特征(如詞嵌入向量)學習相互依賴的目標分類器方法,它通過一個基于?GCN?的映射函數(shù)來實現(xiàn)。隨后,生成的分類器再被應用于由另一個子網(wǎng)絡生成的圖像特征,以實現(xiàn)端到端訓練。?
由于這些從詞嵌入向量到分類器的映射參數(shù)是在所有類別(如圖像標簽)之間共享,因此來自所有分類器的梯度都會影響這個基于?GCN?的分類器生成函數(shù)。這可以對標簽的相關性進行隱式建模。此外,由于分類器的學習涉及到對標簽相關性的建模,因此本文設計了一個有效的標簽相關系數(shù)矩陣,來引導信息在?GCN?各個節(jié)點之間的傳遞。
?
方法
?
本節(jié)將介紹這一新提出的多標簽圖像識別模型?ML-GCN。首先是這一方法的動機,接著是一些圖卷積網(wǎng)絡初步知識,最后是?ML-GCN?模型以及用于相關系數(shù)矩陣構(gòu)建的二次加權(quán)方法。?
動機?
如何有效獲取目標標簽之間的相關性?如何利用這些標簽相關性提升分類表現(xiàn)?這是多標簽圖像識別的兩個重要問題。本文使用圖(graph)來對標簽之間的相互依賴關系進行建模。這種方法能夠靈活地獲取標簽空間中的拓撲結(jié)構(gòu)。?
曠視研究員將圖中的每個節(jié)點(標簽)都表示為該標簽的詞嵌入向量,并提出使用?GCN?直接將詞嵌入向量映射到一組互相依賴的分類器上,這些分類器進一步又可直接應用于圖像特征以進行分類。基于?GCN?的模型有兩個設計動機:?
1.?由于從詞嵌入向量到分類器的映射參數(shù)在所有類別中是共享的,所以習得的分類器能夠在詞嵌入空間中(語義相關的概念在詞嵌入空間中彼此臨近)保留較弱的語義結(jié)構(gòu)。與此同時,對于可以對標簽依賴性進行隱式建模的分類器函數(shù),所有分類器的梯度都會對它產(chǎn)生影響。?
2.?基于標簽的共現(xiàn)模式,曠視研究員設計了一個全新的標簽相關系數(shù)矩陣,可顯式地用?GCN?建模標簽相關性,讓節(jié)點的特征在更新時也能從相關聯(lián)的節(jié)點(標簽)吸收信息。?
圖卷積網(wǎng)絡簡介
?
圖卷積網(wǎng)絡可用于進行半監(jiān)督分類任務,其核心思想是通過節(jié)點之間的信息傳播來更新節(jié)點的表示。?
不同于在一張圖像局部歐氏結(jié)構(gòu)之上進行操作的標準卷積方法,GCN?的目標是學習一個圖?G?的函數(shù)?f(.,?.)。該函數(shù)的輸入是特征描述和相關系數(shù)矩陣,從而把節(jié)點特征更新為。每個?GCN?層都可以寫成一個非線性函數(shù):
f?(.,?.)?可以表示為:
如此一來,便可以通過堆疊多個?GCN?層來對節(jié)點之間交織的復雜關系進行建模。?
用于多標簽識別的GCN?
GCN?的設計初衷是半監(jiān)督分類,其節(jié)點層面的輸出結(jié)果是每個節(jié)點的預測分數(shù)。不同的是,在?ML-GCN?中,每個?GCN?節(jié)點的最終輸出都被設計成與標簽相關的分類器。此外,不同于其它任務,這里的多標簽圖像分類任務沒有提供預定義的圖結(jié)構(gòu)(即相關系數(shù)矩陣)。這需要從頭構(gòu)建相關系數(shù)矩陣。?
圖?2?展示了該方法的整體架構(gòu),它包含兩個主要模塊:圖像特征學習模塊和基于?GCN?的分類器學習模塊。
▲?圖2:用于多標簽圖像識別的ML-GCN模型整體框架
圖像特征學習:原則上可使用任意基于?CNN?的模型學習圖像特征。本文在實驗中使用?ResNet-101?作為實驗基礎模型;然后應用全局最大池化獲取圖像層面的特征?x:?
GCN?分類器學習:通過一個基于?GCN?的映射函數(shù)從標簽特征學習相互依賴的目標分類器。曠視研究員使用堆疊?GCN,其中每個?GCN?層?I?的輸入都取前一層的節(jié)點特征作為輸入,然后輸出新的節(jié)點特征。第一層的輸入是詞嵌入向量,矩陣最后一層的輸出是分類器。?
通過將所學到的分類器應用于圖像特征,得到預測分數(shù):
假設一張圖像的真實標簽是,那么整個網(wǎng)絡可使用傳統(tǒng)多標簽分類的損失函數(shù)來訓練,如下:
?
相關系數(shù)矩陣?
基于相關系數(shù)矩陣,GCN?可在節(jié)點之間進行信息傳遞,因此如何構(gòu)建相關系數(shù)矩陣?A?就成了GCN?模型中一個非常重要的問題。曠視研究員在本文中以數(shù)據(jù)驅(qū)動的方式構(gòu)建了一個相關系數(shù)矩陣,換句話說,相關性可以通過挖掘標簽在數(shù)據(jù)集中的共現(xiàn)模式而來定義。?
本文以條件概率的形式(即)對標簽的相關依賴性進行了建模。如圖?3?所示,?不等于,因此相關系數(shù)矩陣不是對稱的。
▲?圖3:兩個標簽之間的條件概率示意
為構(gòu)建相關系數(shù)矩陣,本文首先統(tǒng)計了訓練數(shù)據(jù)集中標簽對的出現(xiàn)次數(shù),得到矩陣,然后使用這個標簽共現(xiàn)矩陣得到條件概率矩陣:
然而,上面這種簡單的相關性可能有兩個缺陷。首先,一個標簽和其它標簽的共現(xiàn)模式可能表現(xiàn)為長尾分布,其中某些罕見的共現(xiàn)可能是噪聲;其次,訓練和測試中共現(xiàn)的絕對數(shù)可能并不完全一致。因此,本文提出對相關系數(shù)矩陣進行二值化處理。具體而言,研究人員將閾值?T?用于過濾噪聲邊,其中?A?是二值相關系數(shù)矩陣:
過度平滑問題:根據(jù)?(2)?式可以知道,經(jīng)過?GCN?后,一個節(jié)點的特征是其自身特征和相鄰節(jié)點特征的加權(quán)和。而二值化相關系數(shù)矩陣的一個直接問題是其可能導致過度平滑。為了緩解這一問題,本文提出以下二次加權(quán)方法:
?
通過這種做法,在更新節(jié)點特征時,節(jié)點本身的權(quán)重是固定的,相關節(jié)點的權(quán)重則由鄰近分布確定。當?p→1?時,不考慮節(jié)點本身的特征;當?p→0?時,往往忽略相鄰信息。
?
實驗
多標簽圖像識別基準數(shù)據(jù)集?MS-COCO?和?VOC?2007?上的實驗結(jié)果表明,本文方法實現(xiàn)當前最優(yōu)。?
MS-COCO實驗結(jié)果?
對于?ML-GCN,曠視研究員給出了基于二值相關系數(shù)矩陣與基于二次加權(quán)相關系數(shù)矩陣兩個版本的結(jié)果,后者的分類表現(xiàn)更好,可以有效緩解上述問題,從而在幾乎所有指標上領先其它方法,這證明了新提出的網(wǎng)絡與二次加權(quán)法的有效性。具體實驗結(jié)果見表?1。
?
▲?表1:在MS-COCO數(shù)據(jù)集上ML-GCN與之前最佳方法的比較
?
VOC?2007實驗結(jié)果?
為公平對比,曠視研究員給出了以?VGG?為基本模型的結(jié)果。由表?2?可知,使用權(quán)重更新方案的?ML-GCN?模型在?mAP?指標上得到?94%?的分數(shù),高出先前最優(yōu)方法?2%。此外,即使以?VGG?為基礎模型,仍然超出先前最佳水平?0.8%。?
▲?表2:在VOC?2007數(shù)據(jù)集上ML-GCN與之前最佳方法的AP與mAP比較
分類器可視化?
曠視研究員對采用?ML-GCN?模型習得的分類器與由?vanilla?ResNet(即最后一個全連接層的參數(shù))得到的基本分類器進行了可視化分析。結(jié)果如圖?8?所示。可以清楚看到,由新提出的方法學習到的分類器能夠維持語義的拓撲結(jié)構(gòu)。?
▲?圖8:在MS-COCO上新模型學習到的互相依賴型分類器與ResNet的基本分類器的可視化
在圖像檢索上的表現(xiàn)?
進一步,曠視研究員考察了新模型在圖像特征上的學習能力,通過使用?k-NN?算法執(zhí)行基于內(nèi)容的圖像檢索驗證由新模型習得的圖像特征的鑒別能力,結(jié)果表明(見圖?7),ML-GCN?不僅能通過有效獲取標簽依賴性學習更好的分類器,而且還能有助于多標簽的圖像特征學習。
▲?圖7:使用查詢圖像得到的排名前五的結(jié)果
?
結(jié)論
?
標簽相關性建模是多標簽圖像識別的一大關鍵問題。為建模和利用這種重要信息,曠視研究院提出基于?GCN?的模型來根據(jù)先驗的標簽特征(比如詞嵌入向量)學習互相依賴的目標分類器。?
為了對標簽相關性進行顯式建模,文中設計了一種全新的二次加權(quán)方法,可通過平衡節(jié)點與其相鄰節(jié)點來為?GCN?構(gòu)建一個相關系數(shù)矩陣,以更新節(jié)點特征,從而有效緩解了妨礙?GCN?性能的兩大問題:過擬合與過度平滑。定量和定性實驗結(jié)果都表明新方法的優(yōu)越性。
?
傳送門
?
歡迎各位同學加入曠視南京研究院,簡歷可以投遞給南京研究院負責人魏秀參博士。
郵箱:weixiushen@megvii.com
?
參考文獻?
[1]?Kaiming?He,?Xiangyu?Zhang,?Shaoqing?Ren,?and?Jian?Sun.?Deep?residual?learning?for?image?recognition.?In?CVPR,?pages?770–778,?2016.?
[2]?Thomas?N.?Kipf,?and?Max?Welling.?Semi-supervised?classi?cation?with?graph?convolutional?networks.?In?ICLR,?pages?1–10,?2017.?
[3]?Chung-Wei?Lee,?Wei?Fang,?Chih-Kuan?Yeh,?and?YuChiang?Frank?Wang.?Multi-label?zero-shot?learning?with?structured?knowledge?graphs.?In?CVPR,?pages?1576–1585,?2018.?
[4]?Xiu-Shen.?Wei,?Quan?Cui,?Lei?Yang,?Peng?Wang,?and?Lingqiao?Liu,?“RPC:?A?large-scale?retail?product?checkout?dataset,”?arXiv?preprint?arXiv:1901.07249,?pages.?1–9,?2019.?
[5]?Zhao-Min?Chen,?Xiu-Shen?Wei,?Xin?Jin,?Yanwen?Guo.?Multi-label?Image?Recognition?with?joint?Class-aware?Map?Disentangling?and?Label?Correlation?Embedding.?In?ICME,?pages?1-6,?2019.
往期解讀:
CVPR?2019?|?曠視提出GIF2Video:首個深度學習GIF質(zhì)量提升方法
CVPR?2019?|?曠視Oral論文提出GeoNet:基于測地距離的點云分析深度網(wǎng)絡
CVPR?2019?|?曠視提出超分辨率新方法Meta-SR:單一模型實現(xiàn)任意縮放因子
CVPR?2019?|?曠視實時語義分割技術DFANet:高清虛化無需雙攝
點擊以下標題查看更多往期內(nèi)容:?
CVPR 2019 | 無監(jiān)督領域特定單圖像去模糊
圖神經(jīng)網(wǎng)絡綜述:模型與應用
近期值得讀的10篇GAN進展論文
小樣本學習(Few-shot Learning)綜述
萬字綜述之生成對抗網(wǎng)絡(GAN)
可逆ResNet:極致的暴力美學
小米拍照黑科技:基于NAS的圖像超分辨率算法
AAAI 2019 | 基于區(qū)域分解集成的目標檢測
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢??答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly?或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
??投稿郵箱:
??投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly?是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事?AI?領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入?PaperWeekly?的交流群里。
▽ 點擊 |?閱讀原文?| 獲取最新論文推薦
總結(jié)
以上是生活随笔為你收集整理的CVPR 2019 | 旷视研究院提出ML-GCN:基于图卷积网络的多标签图像识别模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CVPR 2019 | 基于骨架表达的单
- 下一篇: Github项目推荐 | OI Wiki