CVPR 2019开源论文 | 基于“解构-重构”的图像分类学习框架
作者丨白亞龍
單位丨京東AI研究院研究員
研究方向丨表示學習、圖像識別
基于深度卷積圖像識別的相關技術主要專注于高層次圖像特征的理解,而對于相似物體之間的細節差異和具有判別意義的區域(discrimination region)的定位和識別上仍有較大提升空間。而具有判別意義的局部區域的精細特征表示恰恰是解決精細圖像分類任務的關鍵。例如,對于『花』的分類、『鳥』的分類,人類專家可以憑借其自身專業知識僅根據目標局部特征就可以區分細微差別的目標。?
受此啟發,本文提出了一種全新的基于“解構-重構”(Destruction and Construction Learning, DCL)的圖像分類學習框架,來強化神經網絡對于“專家”知識的學習。
在 DCL 框架中,除去基本的標準分類骨干網絡(Backbone)以外,我們引入了兩個全新的模塊:解構模塊以及重構模塊。其中解構模塊通過區域混淆機制(Region Confusion Mechanism, RCM)將圖像中物體的結構信息進行“破壞”,即將原始圖片劃分為多個子區域,并對其進行隨機打亂。通過將無物體結構信息的信號輸入到骨干網絡中的方式,迫使分類網絡必須更多地關注具有判別意義的局部子區域來發現差異。
同時為了避免 RCM 引入的噪聲視覺特征模板,我們使用能區分原始圖像和破壞圖像的對抗性損失,對噪聲圖像特征加以區分。最后,經過骨干網絡得到的圖像特征信息,會再一次經過“重構”模塊,該模塊使用一個區域對齊網絡對被破壞掉的圖像中的局部區域之間的語義相關性進行建模,試圖恢復局部區域原本的空間布局(結構重建)。
通過這種自監督信號,我們在不需要使用額外監督信號的情況下,強化了分類網絡對于具有判別意義子區域的特征表示學習。最終,DCL 在多個精細物體識別任務中取得 state-of-the-art 的性能,且在 CVPR 2019 FGVC 比賽中獲得兩項第一名(商品識別、蝴蝶蛾類識別)以及一項第二名(菜品識別)。?
另外,值得注意的是,我們的方法非常輕量化,只在訓練階段兩個新引入模塊只帶來了少量的可學參數,且在測試(實際模型部署、生產環境下)階段只激活基本分類網絡分支,非常具有實用性。?
另外我們還將 DCL 算法拓展到通用物體識別任務中。實驗結果表明,在只新增 8092 個參數(相當于 ResNet-50 的 0.03% 的參數規模)的情況下,基于 DCL 的方法在 ImageNet-1K 任務上可以將 ResNet50 的性能提升至 ResNet-101 的水準。
代碼:https://github.com/JDAI-CV/DCL
引言
在之前的工作中,為了提升精細類目上的物體識別模型的性能,研究人員提出了多種不同的方法。這些方法大致可以被分為兩類:
基于目標物體檢測以及目標物體分類的分步識別框架
基于注意力模型的識別框架
▲?圖1.?面向精細類目物體識別的方法示意圖(虛線部分結構只在模型訓練時使用,類別預測時不需要)
如上圖所示,(a) 主要依靠目標物體檢測模型從圖像中提取目標物體圖像與背景圖像信息進行區分,然后再基于目標物體圖像的特征進行分類。方法 (a) 主要是考慮去掉背景信息對于物體分類帶來的干擾。
而 (b) 對應的基于注意力模型的系統,則依靠大量額外參數來學習目標物體在圖像中的注意力得分,從而在圖像中對目標物體主體與背景區分,或者對目標物體的各個不同部分進行區分。
綜合上述技術,不難看出現有的面向精細物體識別的目前的方法主要都是基于將背景信息與目標物體的視覺信息進行區分,避免引入背景信息干擾的思路。但是眾所周知,區分精細類目的關鍵在于對于局部的細微視覺差異以及全局的整體物體輪廓的綜合考量。這類方法并不能直接優化局部細微視覺差異的識別。另外,上述的方法都需要引入大量額外的運算。
本文提出的分類算法,在不使用額外數據標注和額外測試結構的前提下,強化局部精細特征的學習,從而達到保證實際部署環境下計算資源消耗不變甚至是更小的情況下大幅提升精細商品圖像識別的準確率。
方法
本文提出的基于“解構-重構”的分類模型框架圖 2 所示。需要注意的是,在 DCL 的目標是強化 Classification Network 分支的學習,其他新引入的分支在 test 階段不參與運算。所以在實際模型部署、生產環境下不會引入額外的計算和存儲消耗。
▲?圖2.?DCL分類框架圖
如圖 2 所示,DCL 中主要包含以下四個主要模塊:?
1. 解構模塊(Region Confusion Mechanism):將圖像劃分為若干個子區域,并進行一定范圍內的隨機擾亂(如圖 3 所示),在通過將子區域的空間位置順序進行隨機打亂,迫使分類模型只基于局部圖像特征對圖像進行識別,從而提升了分類模型對于局部圖像細節特征的表征能力。
▲?圖3. 圖像按子區域進行解構打亂的示意圖(左邊是坐標矩陣,代表了每個圖像子區域在原圖中的橫坐標與縱坐標位置;左邊是三張圖像進行解構打亂前后的展示)
2. 分類模塊(Classification Network):分類模型被訓練能夠同時將擾亂后的圖像和原圖分類正確。而將擾亂后圖像分類正確則需要分類模塊可以有效的對圖像中涉及識別商品類別的關鍵區域檢測到并學習到其精細特征表示。這種特征表示會反過來提升原圖上分類模型的準確率。同時無用的背景信息通過這種隨機擾亂的方式變的雜亂無規律,且分類模塊無法只基于背景視覺信息對商品進行區分,進一步消減了復雜背景信息對于商品分類的負面影響。
3. 特征對抗模塊(Adversarial Learning Network):該模塊基于分類模塊得到的特征向量判斷輸入的圖片是原圖還是擾亂的圖片。如果我們將原圖中的特征表示與擾亂圖中的特征表示看成兩個不同領域的特征表示,公有的分類模塊決定了這兩個不同領域中的特征空間中間是有一定重合的,這部分重合主要是關于局部關鍵區域的圖像特征,而原圖獨有的特征表示主要是關于全局圖片中整理輪廓的,最后擾亂圖獨有的特征表示則大多是關于一些噪聲的視覺模板的(因為擾亂圖像會引入視覺噪聲)。如圖 4 所示,這里通過特征對抗模塊,將這三類特征表示加以區分,避免了噪聲特征表示對于原圖分類時的影響。
▲?圖4. 不同卷積核對原始圖片和解構后圖片的響應對比。第一行是原始圖像和解構后的圖像。下面兩行的左側分別對應的是使用特征對抗模塊前后的的不同卷積核對原始和解構后圖像的響應(橫坐標表示原始圖像上的響應值,縱坐標表示解構后圖像上的響應值)。右側是來自不同卷積核的可視化特征圖,這些卷積核對原始圖像和破壞圖像有不同的響應。A,D:對于解構后圖像響應較大的卷積核,對雜亂的邊緣噪聲響應比較大;C,F:對原始圖像響應較大的卷積核,比如對鳥的總體輪廓響應比較大,更關注于物體的整體輪廓;B,E:對原始圖像與解構后圖像都有大響應的卷積核,更關注與物體的局部精細特征,比如鳥的翅膀或者頭部。
4. 重構模塊(Region Alignment Network):該模塊基于分類模塊輸出的特征圖,來預測各個圖像子模塊在原圖中的坐標位置。通過該模塊的約束,使得分類模塊加強了對于局部圖像的語義信息表示的能力。即迫使分類模塊對圖像有了更加深入的理解,諸如物體結構的組成以及物體各個子結構之間的相互關系等。
實驗
我們在精細物體分類的多個數據集上取得了 state-of-the-art 的性能:
DCL 還在 imageNet-1K 任務上取得了非常顯著的提升:
基于 DCL 的算法框架在 CVPR 2019 FGVC 比賽中取得兩項第一名(backbone的選擇從 ResNet50, SEResNet,ResNeXT 到 SEResNext,均證明了 DCL 的有效性)。分別是:?
iMaterialist Challenge on Product Recognition?
Fieldguide Challenge: Moths & Butterflies
結論
整體與細節同樣重要,本文提出的 DCL 分類框架,強化了分類網絡對于物體細節特征認知的同時,保留了原有其高層視覺表征能力,從而大幅提升了物體識別準確率。DCL 作為一個訓練過程“輕量化”,測試過程“零負擔”的全新分類學習框架,已經被證明可以同時適用于精細物體分類和通用物體識別,且可以有效嵌入到各種不同的基礎分類網絡結構中。
實習內推
本文作者正在招實習生:
關于京東 AI 視覺與多媒體實驗室:
關于 Image Understanding 團隊:
專注于圖像識別、檢測以及深度理解。在物體分類、Scene Graph 關系建模、視覺問答、圖像生成、跨領域學習、半監督學習等多個方向上取得良好進展。多篇論文被 CVPR、ICCV、ECCV 等頂會錄用。并在包括 CVPR 2019 FGVC 在內的多項國際學術競賽中取得第一名的成績。
招聘:計算機視覺算法工程師(實習生)
工作地點:北京-北辰世紀中心(近奧林匹克公園)
工作內容:
以學術研究為主,配合工程落地;
探索計算機視覺領域尤其是圖像識別與理解的各種前沿問題,推動領域創新;
針對各種實際應用場景提供最優算法方案。
崗位要求:
中國及海外知名高校計算機科學,電子信息工程,數學,統計學或相關專業學歷;
全職實習期 3 個月以上,需要導師開具外出實習同意函;
精通 Python,有 PyTorch 開發經驗,編程能力強,編程習慣好;
能根據項目需求熟練使用和改進常用人工智能算法;
符合以下條件者加分:
可穩定實習 6 個月以上;
在計算機視覺領域頂級會議如 CVPR、ICCV、ECCV 等投稿過論文;
在權威學科競賽上作為核心成員獲得過前三名以上的成績;
有國內外知名 AI 研究院工作經驗。
聯系方式:
發送簡歷至?baiyalong@jd.com,并請注明具體申請崗位。郵件建議標題格式為姓名-學校-計算機視覺算法工程師-實習(paperweekly)。
點擊以下標題查看更多往期內容:?
ICCV 2019 | 沉迷AI換臉?不如來試試“AI換衣”
ICCV 2019?| 單幅圖像下實現任意尺度自然變換
ICCV 2019?| 打造炫酷動態的藝術字
ICCV 2019 | 基于關聯語義注意力模型的圖像修復
ICCV 2019 | 基于元學習和AutoML的模型壓縮
ICCV 2019?| 適用于視頻分割的全新Attention機制
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文 & 源碼
總結
以上是生活随笔為你收集整理的CVPR 2019开源论文 | 基于“解构-重构”的图像分类学习框架的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 泡水车为什么不能买?
- 下一篇: 这场论文复现的华山论剑,谁能拔得头筹