當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR 2019 | 旷视研究院提出ML-GCN：基于图卷积网络的多标签图像识别模型

發(fā)布時(shí)間：2024/10/8 编程问答 51 豆豆

生活随笔收集整理的這篇文章主要介紹了 CVPR 2019 | 旷视研究院提出ML-GCN：基于图卷积网络的多标签图像识别模型小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

全球計(jì)算機(jī)視覺三大頂會(huì)之一?CVPR?2019?（IEEE?Conference?on?Computer?Visionand?Pattern?Recognition）將于?6?月?16-20在美國洛杉磯如期而至。屆時(shí)，曠視首席科學(xué)家、研究院院長孫劍博士將帶領(lǐng)團(tuán)隊(duì)遠(yuǎn)赴盛會(huì)，助力計(jì)算機(jī)視覺技術(shù)的交流與落地。在此之前，曠視每周會(huì)推出一篇?CVPR'19?接收論文解讀文章。本文是第?5?篇，曠視南京研究院提出了一種基于圖卷積網(wǎng)絡(luò)的多標(biāo)簽識(shí)別模型?ML-GCN?以及一種構(gòu)建相關(guān)系數(shù)矩陣的二次加權(quán)方法。

論文名稱：Multi-Label Image Recognition with Graph Convolutional Networks

論文鏈接：https://arxiv.org/abs/1904.03582

導(dǎo)語
介紹
方法
- 動(dòng)機(jī)
- 圖卷積網(wǎng)絡(luò)簡介
- 用于多標(biāo)簽識(shí)別的GCN
- 相關(guān)系數(shù)矩陣
實(shí)驗(yàn)
- MS-COCO實(shí)驗(yàn)結(jié)果
- VOC 2007實(shí)驗(yàn)結(jié)果
- 分類器可視化
- 在圖像檢索上的表現(xiàn)
結(jié)論
參考文獻(xiàn)
往期解讀

導(dǎo)語

多標(biāo)簽圖像識(shí)別（multi-label?image?recognition）任務(wù)的目標(biāo)是預(yù)測(cè)一張圖像中出現(xiàn)的多個(gè)物體標(biāo)簽，其在搜索引擎、推薦系統(tǒng)中應(yīng)用廣泛，長期以來作為計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域一項(xiàng)基礎(chǔ)研究課題備受學(xué)界業(yè)界關(guān)注。

由于多個(gè)相關(guān)物體通常同時(shí)出現(xiàn)在一副圖像之中，因此提升識(shí)別性能的一個(gè)理想方法就是針對(duì)多標(biāo)記識(shí)別的核心問題，即“如何有效建模標(biāo)記間的協(xié)同關(guān)系”進(jìn)行探索，對(duì)標(biāo)簽之間的依賴性進(jìn)行有效建模。?

為獲取和利用這種依賴性，曠視研究院提出一種基于圖卷積網(wǎng)絡(luò)（Graph?Convolutional?Network，GCN）的多標(biāo)簽分類模型。該模型通過?data-driven?方式建立標(biāo)記間有向圖（directed?graph）并由?GCN?將類別標(biāo)記映射（mapping）為對(duì)應(yīng)類別分類器，以此建模類別關(guān)系，同時(shí)可提升表示學(xué)習(xí)能力。?

此外針對(duì)?GCN?中的關(guān)鍵元素?correlation?matrix?進(jìn)行了深入分析和重設(shè)計(jì)，使其更勝任多標(biāo)記問題。在兩個(gè)多標(biāo)簽圖像識(shí)別權(quán)威數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示，ML-GCN?明顯優(yōu)于目前所有的最佳方法。另外，可視化結(jié)果顯示，模型習(xí)得的分類器還能保持有意義的語義拓?fù)浣Y(jié)構(gòu)。

介紹

多標(biāo)簽圖像識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)基本任務(wù)，其目標(biāo)是識(shí)別圖像中存在的一系列對(duì)象。這項(xiàng)技術(shù)可應(yīng)用于醫(yī)學(xué)診斷識(shí)別、人類屬性識(shí)別和零售識(shí)別等諸多領(lǐng)域。相比于多類別圖像分類，多標(biāo)簽任務(wù)的難度更大，因?yàn)槠漭敵隹臻g隨著類別數(shù)目呈指數(shù)增大。

▲?圖1：通過構(gòu)建目標(biāo)標(biāo)簽的有向圖來建模標(biāo)簽依賴性

由于現(xiàn)實(shí)世界中很多物體通常會(huì)同時(shí)出現(xiàn)，因此對(duì)標(biāo)簽之間的相關(guān)性進(jìn)行建模就成了多標(biāo)簽圖像識(shí)別的關(guān)鍵，如圖?1?所示。?

解決多標(biāo)簽識(shí)別問題的一個(gè)樸素方法是分離地看待各個(gè)目標(biāo)，通過將多標(biāo)簽問題轉(zhuǎn)換成多組二值分類問題，預(yù)測(cè)每個(gè)目標(biāo)是否存在。由于深度卷積神經(jīng)網(wǎng)絡(luò)在單標(biāo)簽圖像分類上取得的巨大成功，二值分類的性能已得到極大提升。?

但是這些方法忽視了物體之間復(fù)雜的拓?fù)浣Y(jié)構(gòu)，因此在本質(zhì)上有局限性。正是這個(gè)缺陷促使研究員尋找能夠獲取并從多個(gè)角度探索標(biāo)簽之間相關(guān)性的方法。其中的部分方法基于概率圖模型或循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN），可顯式地對(duì)標(biāo)簽依賴性進(jìn)行建模。?

另一個(gè)研究方向是通過注意力機(jī)制來對(duì)標(biāo)簽相關(guān)性進(jìn)行隱式建模。該方法考慮的是圖像中被注意區(qū)域之間的關(guān)系（可視為局部相關(guān)性）。不過即便如此，該方法還是忽略了圖像中標(biāo)簽之間的全局相關(guān)性（全局相關(guān)性需要通過單張圖像之外的知識(shí)才能推斷出來）。?

為此，曠視研究院提出基于圖卷積網(wǎng)絡(luò)（GCN）的全新模型，即?ML-GCN（Multi-Label?Graph?Convolutional?Network），用于建立多標(biāo)簽之間的相關(guān)性，該方法有其它方法無法具備的擴(kuò)展性和靈活性。?

除了將目標(biāo)分類器視為一組待學(xué)習(xí)的獨(dú)立參數(shù)向量外，曠視研究院還提出一種可從標(biāo)簽的先驗(yàn)特征（如詞嵌入向量）學(xué)習(xí)相互依賴的目標(biāo)分類器方法，它通過一個(gè)基于?GCN?的映射函數(shù)來實(shí)現(xiàn)。隨后，生成的分類器再被應(yīng)用于由另一個(gè)子網(wǎng)絡(luò)生成的圖像特征，以實(shí)現(xiàn)端到端訓(xùn)練。?

由于這些從詞嵌入向量到分類器的映射參數(shù)是在所有類別（如圖像標(biāo)簽）之間共享，因此來自所有分類器的梯度都會(huì)影響這個(gè)基于?GCN?的分類器生成函數(shù)。這可以對(duì)標(biāo)簽的相關(guān)性進(jìn)行隱式建模。此外，由于分類器的學(xué)習(xí)涉及到對(duì)標(biāo)簽相關(guān)性的建模，因此本文設(shè)計(jì)了一個(gè)有效的標(biāo)簽相關(guān)系數(shù)矩陣，來引導(dǎo)信息在?GCN?各個(gè)節(jié)點(diǎn)之間的傳遞。

方法

本節(jié)將介紹這一新提出的多標(biāo)簽圖像識(shí)別模型?ML-GCN。首先是這一方法的動(dòng)機(jī)，接著是一些圖卷積網(wǎng)絡(luò)初步知識(shí)，最后是?ML-GCN?模型以及用于相關(guān)系數(shù)矩陣構(gòu)建的二次加權(quán)方法。?

動(dòng)機(jī)?

如何有效獲取目標(biāo)標(biāo)簽之間的相關(guān)性？如何利用這些標(biāo)簽相關(guān)性提升分類表現(xiàn)？這是多標(biāo)簽圖像識(shí)別的兩個(gè)重要問題。本文使用圖（graph）來對(duì)標(biāo)簽之間的相互依賴關(guān)系進(jìn)行建模。這種方法能夠靈活地獲取標(biāo)簽空間中的拓?fù)浣Y(jié)構(gòu)。?

曠視研究員將圖中的每個(gè)節(jié)點(diǎn)（標(biāo)簽）都表示為該標(biāo)簽的詞嵌入向量，并提出使用?GCN?直接將詞嵌入向量映射到一組互相依賴的分類器上，這些分類器進(jìn)一步又可直接應(yīng)用于圖像特征以進(jìn)行分類。基于?GCN?的模型有兩個(gè)設(shè)計(jì)動(dòng)機(jī)：?

1.?由于從詞嵌入向量到分類器的映射參數(shù)在所有類別中是共享的，所以習(xí)得的分類器能夠在詞嵌入空間中（語義相關(guān)的概念在詞嵌入空間中彼此臨近）保留較弱的語義結(jié)構(gòu)。與此同時(shí)，對(duì)于可以對(duì)標(biāo)簽依賴性進(jìn)行隱式建模的分類器函數(shù)，所有分類器的梯度都會(huì)對(duì)它產(chǎn)生影響。?

2.?基于標(biāo)簽的共現(xiàn)模式，曠視研究員設(shè)計(jì)了一個(gè)全新的標(biāo)簽相關(guān)系數(shù)矩陣，可顯式地用?GCN?建模標(biāo)簽相關(guān)性，讓節(jié)點(diǎn)的特征在更新時(shí)也能從相關(guān)聯(lián)的節(jié)點(diǎn)（標(biāo)簽）吸收信息。?

圖卷積網(wǎng)絡(luò)簡介

圖卷積網(wǎng)絡(luò)可用于進(jìn)行半監(jiān)督分類任務(wù)，其核心思想是通過節(jié)點(diǎn)之間的信息傳播來更新節(jié)點(diǎn)的表示。?

不同于在一張圖像局部歐氏結(jié)構(gòu)之上進(jìn)行操作的標(biāo)準(zhǔn)卷積方法，GCN?的目標(biāo)是學(xué)習(xí)一個(gè)圖?G?的函數(shù)?f(.,?.)。該函數(shù)的輸入是特征描述和相關(guān)系數(shù)矩陣，從而把節(jié)點(diǎn)特征更新為。每個(gè)?GCN?層都可以寫成一個(gè)非線性函數(shù)：

f?(.,?.)?可以表示為：

如此一來，便可以通過堆疊多個(gè)?GCN?層來對(duì)節(jié)點(diǎn)之間交織的復(fù)雜關(guān)系進(jìn)行建模。?

用于多標(biāo)簽識(shí)別的GCN?

GCN?的設(shè)計(jì)初衷是半監(jiān)督分類，其節(jié)點(diǎn)層面的輸出結(jié)果是每個(gè)節(jié)點(diǎn)的預(yù)測(cè)分?jǐn)?shù)。不同的是，在?ML-GCN?中，每個(gè)?GCN?節(jié)點(diǎn)的最終輸出都被設(shè)計(jì)成與標(biāo)簽相關(guān)的分類器。此外，不同于其它任務(wù)，這里的多標(biāo)簽圖像分類任務(wù)沒有提供預(yù)定義的圖結(jié)構(gòu)（即相關(guān)系數(shù)矩陣）。這需要從頭構(gòu)建相關(guān)系數(shù)矩陣。?

圖?2?展示了該方法的整體架構(gòu)，它包含兩個(gè)主要模塊：圖像特征學(xué)習(xí)模塊和基于?GCN?的分類器學(xué)習(xí)模塊。

▲?圖2：用于多標(biāo)簽圖像識(shí)別的ML-GCN模型整體框架

圖像特征學(xué)習(xí)：原則上可使用任意基于?CNN?的模型學(xué)習(xí)圖像特征。本文在實(shí)驗(yàn)中使用?ResNet-101?作為實(shí)驗(yàn)基礎(chǔ)模型；然后應(yīng)用全局最大池化獲取圖像層面的特征?x：?

GCN?分類器學(xué)習(xí)：通過一個(gè)基于?GCN?的映射函數(shù)從標(biāo)簽特征學(xué)習(xí)相互依賴的目標(biāo)分類器。曠視研究員使用堆疊?GCN，其中每個(gè)?GCN?層?I?的輸入都取前一層的節(jié)點(diǎn)特征作為輸入，然后輸出新的節(jié)點(diǎn)特征。第一層的輸入是詞嵌入向量，矩陣最后一層的輸出是分類器。?

通過將所學(xué)到的分類器應(yīng)用于圖像特征，得到預(yù)測(cè)分?jǐn)?shù)：

假設(shè)一張圖像的真實(shí)標(biāo)簽是，那么整個(gè)網(wǎng)絡(luò)可使用傳統(tǒng)多標(biāo)簽分類的損失函數(shù)來訓(xùn)練，如下：

相關(guān)系數(shù)矩陣?

基于相關(guān)系數(shù)矩陣，GCN?可在節(jié)點(diǎn)之間進(jìn)行信息傳遞，因此如何構(gòu)建相關(guān)系數(shù)矩陣?A?就成了GCN?模型中一個(gè)非常重要的問題。曠視研究員在本文中以數(shù)據(jù)驅(qū)動(dòng)的方式構(gòu)建了一個(gè)相關(guān)系數(shù)矩陣，換句話說，相關(guān)性可以通過挖掘標(biāo)簽在數(shù)據(jù)集中的共現(xiàn)模式而來定義。?

本文以條件概率的形式（即）對(duì)標(biāo)簽的相關(guān)依賴性進(jìn)行了建模。如圖?3?所示，?不等于，因此相關(guān)系數(shù)矩陣不是對(duì)稱的。

▲?圖3：兩個(gè)標(biāo)簽之間的條件概率示意

為構(gòu)建相關(guān)系數(shù)矩陣，本文首先統(tǒng)計(jì)了訓(xùn)練數(shù)據(jù)集中標(biāo)簽對(duì)的出現(xiàn)次數(shù)，得到矩陣，然后使用這個(gè)標(biāo)簽共現(xiàn)矩陣得到條件概率矩陣：

然而，上面這種簡單的相關(guān)性可能有兩個(gè)缺陷。首先，一個(gè)標(biāo)簽和其它標(biāo)簽的共現(xiàn)模式可能表現(xiàn)為長尾分布，其中某些罕見的共現(xiàn)可能是噪聲；其次，訓(xùn)練和測(cè)試中共現(xiàn)的絕對(duì)數(shù)可能并不完全一致。因此，本文提出對(duì)相關(guān)系數(shù)矩陣進(jìn)行二值化處理。具體而言，研究人員將閾值?T?用于過濾噪聲邊，其中?A?是二值相關(guān)系數(shù)矩陣：

過度平滑問題：根據(jù)?(2)?式可以知道，經(jīng)過?GCN?后，一個(gè)節(jié)點(diǎn)的特征是其自身特征和相鄰節(jié)點(diǎn)特征的加權(quán)和。而二值化相關(guān)系數(shù)矩陣的一個(gè)直接問題是其可能導(dǎo)致過度平滑。為了緩解這一問題，本文提出以下二次加權(quán)方法：

通過這種做法，在更新節(jié)點(diǎn)特征時(shí)，節(jié)點(diǎn)本身的權(quán)重是固定的，相關(guān)節(jié)點(diǎn)的權(quán)重則由鄰近分布確定。當(dāng)?p→1?時(shí)，不考慮節(jié)點(diǎn)本身的特征；當(dāng)?p→0?時(shí)，往往忽略相鄰信息。

實(shí)驗(yàn)

多標(biāo)簽圖像識(shí)別基準(zhǔn)數(shù)據(jù)集?MS-COCO?和?VOC?2007?上的實(shí)驗(yàn)結(jié)果表明，本文方法實(shí)現(xiàn)當(dāng)前最優(yōu)。?

MS-COCO實(shí)驗(yàn)結(jié)果?

對(duì)于?ML-GCN，曠視研究員給出了基于二值相關(guān)系數(shù)矩陣與基于二次加權(quán)相關(guān)系數(shù)矩陣兩個(gè)版本的結(jié)果，后者的分類表現(xiàn)更好，可以有效緩解上述問題，從而在幾乎所有指標(biāo)上領(lǐng)先其它方法，這證明了新提出的網(wǎng)絡(luò)與二次加權(quán)法的有效性。具體實(shí)驗(yàn)結(jié)果見表?1。

▲?表1：在MS-COCO數(shù)據(jù)集上ML-GCN與之前最佳方法的比較

VOC?2007實(shí)驗(yàn)結(jié)果?

為公平對(duì)比，曠視研究員給出了以?VGG?為基本模型的結(jié)果。由表?2?可知，使用權(quán)重更新方案的?ML-GCN?模型在?mAP?指標(biāo)上得到?94%?的分?jǐn)?shù)，高出先前最優(yōu)方法?2%。此外，即使以?VGG?為基礎(chǔ)模型，仍然超出先前最佳水平?0.8%。?

▲?表2：在VOC?2007數(shù)據(jù)集上ML-GCN與之前最佳方法的AP與mAP比較

分類器可視化?

曠視研究員對(duì)采用?ML-GCN?模型習(xí)得的分類器與由?vanilla?ResNet（即最后一個(gè)全連接層的參數(shù)）得到的基本分類器進(jìn)行了可視化分析。結(jié)果如圖?8?所示。可以清楚看到，由新提出的方法學(xué)習(xí)到的分類器能夠維持語義的拓?fù)浣Y(jié)構(gòu)。?

▲?圖8：在MS-COCO上新模型學(xué)習(xí)到的互相依賴型分類器與ResNet的基本分類器的可視化

在圖像檢索上的表現(xiàn)?

進(jìn)一步，曠視研究員考察了新模型在圖像特征上的學(xué)習(xí)能力，通過使用?k-NN?算法執(zhí)行基于內(nèi)容的圖像檢索驗(yàn)證由新模型習(xí)得的圖像特征的鑒別能力，結(jié)果表明（見圖?7），ML-GCN?不僅能通過有效獲取標(biāo)簽依賴性學(xué)習(xí)更好的分類器，而且還能有助于多標(biāo)簽的圖像特征學(xué)習(xí)。

▲?圖7：使用查詢圖像得到的排名前五的結(jié)果

結(jié)論

標(biāo)簽相關(guān)性建模是多標(biāo)簽圖像識(shí)別的一大關(guān)鍵問題。為建模和利用這種重要信息，曠視研究院提出基于?GCN?的模型來根據(jù)先驗(yàn)的標(biāo)簽特征（比如詞嵌入向量）學(xué)習(xí)互相依賴的目標(biāo)分類器。?

為了對(duì)標(biāo)簽相關(guān)性進(jìn)行顯式建模，文中設(shè)計(jì)了一種全新的二次加權(quán)方法，可通過平衡節(jié)點(diǎn)與其相鄰節(jié)點(diǎn)來為?GCN?構(gòu)建一個(gè)相關(guān)系數(shù)矩陣，以更新節(jié)點(diǎn)特征，從而有效緩解了妨礙?GCN?性能的兩大問題：過擬合與過度平滑。定量和定性實(shí)驗(yàn)結(jié)果都表明新方法的優(yōu)越性。

傳送門

歡迎各位同學(xué)加入曠視南京研究院，簡歷可以投遞給南京研究院負(fù)責(zé)人魏秀參博士。

郵箱：weixiushen@megvii.com

參考文獻(xiàn)?

[1]?Kaiming?He,?Xiangyu?Zhang,?Shaoqing?Ren,?and?Jian?Sun.?Deep?residual?learning?for?image?recognition.?In?CVPR,?pages?770–778,?2016.?

[2]?Thomas?N.?Kipf,?and?Max?Welling.?Semi-supervised?classi?cation?with?graph?convolutional?networks.?In?ICLR,?pages?1–10,?2017.?

[3]?Chung-Wei?Lee,?Wei?Fang,?Chih-Kuan?Yeh,?and?YuChiang?Frank?Wang.?Multi-label?zero-shot?learning?with?structured?knowledge?graphs.?In?CVPR,?pages?1576–1585,?2018.?

[4]?Xiu-Shen.?Wei,?Quan?Cui,?Lei?Yang,?Peng?Wang,?and?Lingqiao?Liu,?“RPC:?A?large-scale?retail?product?checkout?dataset,”?arXiv?preprint?arXiv:1901.07249,?pages.?1–9,?2019.?

[5]?Zhao-Min?Chen,?Xiu-Shen?Wei,?Xin?Jin,?Yanwen?Guo.?Multi-label?Image?Recognition?with?joint?Class-aware?Map?Disentangling?and?Label?Correlation?Embedding.?In?ICME,?pages?1-6,?2019.

往期解讀：

CVPR?2019?|?曠視提出GIF2Video：首個(gè)深度學(xué)習(xí)GIF質(zhì)量提升方法
CVPR?2019?|?曠視Oral論文提出GeoNet：基于測(cè)地距離的點(diǎn)云分析深度網(wǎng)絡(luò)
CVPR?2019?|?曠視提出超分辨率新方法Meta-SR：單一模型實(shí)現(xiàn)任意縮放因子
CVPR?2019?|?曠視實(shí)時(shí)語義分割技術(shù)DFANet：高清虛化無需雙攝

點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容：?

CVPR 2019 | 無監(jiān)督領(lǐng)域特定單圖像去模糊
圖神經(jīng)網(wǎng)絡(luò)綜述：模型與應(yīng)用
近期值得讀的10篇GAN進(jìn)展論文
小樣本學(xué)習(xí)（Few-shot Learning）綜述
萬字綜述之生成對(duì)抗網(wǎng)絡(luò)（GAN）
可逆ResNet：極致的暴力美學(xué)
小米拍照黑科技：基于NAS的圖像超分辨率算法
AAAI 2019 | 基于區(qū)域分解集成的目標(biāo)檢測(cè)

#投稿通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？?答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly?或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來。

??來稿標(biāo)準(zhǔn)：

? 稿件確系個(gè)人原創(chuàng)作品，來稿需注明作者個(gè)人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會(huì)添加“原創(chuàng)”標(biāo)志

??投稿郵箱：

??投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly?是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事?AI?領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入?PaperWeekly?的交流群里。

▽ 點(diǎn)擊 |?閱讀原文?| 獲取最新論文推薦