CVPR 2020 Oral | 旷视研究院提出双边分支网络BBN:攻坚长尾分布的现实世界任务...
IEEE 國際計算機視覺與模式識別會議 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 將于 6 月 14-19 日在美國西雅圖舉行。近日,大會官方論文結果公布,曠視研究院 17 篇論文被收錄,研究領域涵蓋物體檢測與行人再識別(尤其是遮擋場景)、人臉識別、文字檢測與識別、實時視頻感知與推理、小樣本學習、遷移學習、3D 感知、GAN 與圖像生成、計算機圖形學、語義分割、細粒度圖像等眾多領域,取得多項領先的技術研究成果,這與即將開源的曠視 AI 平臺 Brain++ 密不可分。?
本文是曠視 CVPR 2020 論文系列解讀第 5 篇,是 CVPR 2020 Oral 展示論文之一,它揭示了再平衡方法解決長尾問題的本質及不足:雖然增強了分類器性能,卻在一定程度上損害了模型的表征能力。?針對其不足,本文提出了一種針對長尾問題的新型網絡框架——雙邊分支網絡(BBN),以兼顧表征學習和分類器學習。通過該方法,曠視研究院在細粒度識別領域權威賽事 FGVC 2019 中,獲得 iNaturalist Challenge 賽道的世界冠軍。該網絡框架的代碼已開源。
論文名稱:BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition
論文鏈接:www.weixiushen.com/publication/cvpr20_BBN.pdf
開源代碼:https://github.com/Megvii-Nanjing/BBN
目錄
導語
簡介
論點證明
方法
實驗
結論
參考文獻
往期解讀
導語
隨著深度卷積神經網絡(CNN)研究的推進,圖像分類的性能表現已經取得了驚人的進步,這一成功與高質量的大規??捎脭祿懿豢煞?#xff0c;比如 ImageNet ILSVRC 2012、MS COCO 和 Places 數據集。
這些視覺識別數據集的類別標簽分布是大致均勻的,相對而言,真實世界的數據集卻總是存在偏重情況,呈現出長尾分布模式,即少量類別(頭部類別)具有大量數據,而大部分類別(尾部類別)僅有少量樣本,如圖 1 所示。
另外,計算機視覺社區在近些年中構建出了越來越多反映真實難題的長尾數據集,如 iNaturalist、LVIS、RPC。
當處理這樣的視覺數據時,深度學習方法不足以取得優良的識別精度,原因有二:一是深度模型本身就需要大量數據,二是長尾數據分布存在極端的類別不平衡問題。
▲ 圖1. 真實世界的大規模數據集往往會展現出長尾分布現象
長尾分布這種極端不平衡會導致分類訓練難以得到很好的效果,尤其是對于長尾類別而言。類別再平衡策略可讓模型在長尾問題上的準確度表現更好。
本文揭示出,這些策略的機制是顯著提升分類器學習,但同時又會在一定程度上出人意料地損害已學的深度特征的表征能力。
如圖 1 所示,經過再平衡之后,決策邊界(黑色實弧線)往往能更準確地分類尾部數據(紅色方塊)。但是,每個類別的類內分布會變得更加松散。在過去的研究中,處理長尾問題的顯著且有效的方法是類別再平衡,它可以緩解訓練數據的極端不平衡問題。
一般來說,類別再平衡方法有兩類:1)再采樣方法;2)代價敏感再加權方法。這些方法可對 mini-batch 中的樣本進行再采樣或對這些樣本的損失進行重新加權,以期望能夠和測試分布維持一致,從而實現對網絡訓練的調整。
因此,類別再平衡可有效地直接影響深度網絡的分類器權重更新,即促進分類器的學習。正是因為這個原因,再平衡方法可以在長尾數據上取得令人滿意的識別準確度。
但是,盡管再平衡方法最終能得到良好的預測結果,這些方法仍會產生不良影響,即會在一定程度上出人意料地損害深度特征的表征能力。
簡介
在本文中,曠視研究院首先通過驗證實驗,對前述論點進行了證明。具體來說,為了解析再平衡策略的工作方式,把深度網絡的訓練過程分為兩個階段:1)表征學習;2)分類器學習。
表征學習階段,曠視研究院采用的傳統的訓練方法(交叉熵損失)、再加權和再采樣這三種學習方式來習得各自對應的表征。
然后,在分類器學習階段,采用的做法是先固定在前一階段收斂的表征學習的參數(即骨干層),然后再從頭開始訓練這些網絡的分類器(即全連接層),這個過程同樣使用了上述三種學習方法。
▲ 圖2. 在 CIFAR-100-IR50 和 CIFAR-10-IR50 這兩個大規模長尾數據集上采用不同的表征學習和分類器學習方法所得到的 top-1 錯誤率
圖 2 給出了在 CIFAR-100-IR50 和 CIFAR-10-IR50 這兩個基準長尾數據集上所得到的預測錯誤率。很明顯,當表征學習的方式固定時,再平衡方法可以合理地實現更低的錯誤率,這表明它們確實可以促進分類器學習。
另一方面,通過固定分類器的學習方式,簡單的交叉熵損失相比再平衡策略反而可以取得更低的錯誤率,這說明再平衡策略在一定程度上損害了表征學習。
從該角度出發,曠視研究院提出了一種統一的雙邊分支網絡(BBN),可以同時兼顧表征學習和分類器學習,大幅提升了長尾問題的識別性能。
如圖 3 所示,BBN 模型由兩個分支構成,即常規學習分支(Conventional Learning Branch)和再平衡分支(Re-Balancing Branch)。總體而言,BBN 的每個分支各自執行其表征學習和分類器學習任務。
顧名思義,常規學習分支為原始數據分布配備了典型的均勻采樣器(Uniform Sampler),可用于為識別任務學習通用的表征;再平衡分支則耦合了一個逆向的采樣器(Reversed Sampler),其目標是建模尾部數據。
接著,再通過累積學習(Cumulative Learning)將這些雙邊分支的預測輸出聚合起來。累積學習使用了一個自適應權衡參數 α,它通過「適應器(Adaptor)」根據當前訓練 epoch 的數量自動生成,可以調節整個 BBN首先從原始分布學習通用的特征,然后再逐漸關注尾部數據。
此外,α 并沒有階躍式地從1變為0,而是逐漸降低,使得兩個分支在整個訓練過程可以同時維持學習狀態,讓模型在迭代后期關注尾部數據的同時不損害已習得的通用表征。
論點證明
為探究再平衡策略對表征學習和分類器學習的影響,曠視研究院設計了一個兩階段的驗證實驗,把深度學習模型解耦為了表征提取器和分類器。
具體來說,第一階段使用普通的訓練方法(即交叉熵)或再平衡方法(即再加權/再采樣)作為學習方法訓練一個分類網絡;然后,獲取對應于這些學習方法的不同類型的表征提取器。
在第二階段,固定在前一階段學習到的表征提取器的參數,再使用前述的三種學習方法從頭開始重新訓練分類器。
如圖 2 所示,曠視研究院在 CIFAR-100-IR50 數據集(這是不平衡比為 50 的長尾 CIFAR-100)上通過對照實驗對上述論點進行了驗證??梢钥吹?#xff0c;在每個數據集上,基于不同的排列組合可得到 9 組結果?;诖?#xff0c;可得到兩個方面的觀察結果:
分類器:可以發現,當應用同樣的表征學習方法時(比較豎直方向上三個單元格的錯誤率),RW/RS 的分類錯誤率總是低于 CE,這是因為它們的再平衡操作會對分類器權重的更新過程進行調整,以與測試分布相匹配;
表征:當應用同樣的分類器學習方法時(比較水平方向上三個單元格的錯誤率),可以驚訝地發現 CE 的錯誤率總是低于 RW/RS。這說明使用 CE 進行訓練可以獲得更好的表征,RW/RS 在一定程度上損害了習得的深度特征的表征能力。
此外,如圖 2 左圖所示,通過在表征學習上應用 CE 和在分類學習上應用 RS,在 CIFAR-100-IR50 的驗證集上得到的錯誤率最低。
方法
如圖 3 所示,BBN 模型包含 3 個主要組件:1)常規學習分支;2)再平衡分支;3)累積學習策略。
▲ 圖3. BBN 框架示意圖
具體來說,常規學習分支和再平衡分支分別用于表征學習和分類器學習 。這兩個分支使用了同樣的殘差網絡結構,除最后一個殘差模塊,兩個分支的網絡參數是共享的。
曠視研究院為這兩個分支分別配備了均勻采樣器和逆向采樣器,得到兩個樣本 () 和 () 作為輸入數據,其中前者用于常規學習分支,后者用于再平衡分支。
將這兩個樣本送入各自對應的分支后,通過卷積神經網絡和全局平均池化(GAP)得到特征向量 和 。
在這之后是曠視研究院專門設計的累積學習策略,可在訓練階段在兩個分支之間逐漸切換學習的「注意力」。
具體的做法是使用一個自適應權衡參數 α 來控制 和 的權重,經過加權的特征向量 α 和 α 將分別被發送給分類器 和 ,然后再通過逐元素累加的方式將其輸出整合到一起。這個輸出 logit 的公式為:
其中 是預測得到的輸出,即 。對于每個類別 i ∈ {1, 2, . . . , C},softmax 函數可通過下式計算該類別的概率:
然后,用 E(·, ·) 表示交叉熵函數,并將輸出概率分布記為 。則 BBN 模型的加權交叉熵分類損失為:
而且,能以端到端方式訓練整個 BBN 網絡模型。關于雙邊分支結構的設計與累積學習策略的細節信息請參閱原論文。
實驗
曠視研究院在不平衡比分別為 10、50、100 的三個長尾 CIFAR 數據集上進行了廣泛的實驗,結果如下所示:
表 1 在不同設置的 CIFAR 數據集上比較了 BBN 模型與其它多種方法。
▲ 表1. 在長尾 CIAFR-10 和 CIFAR-100 數據集上的 ResNet 的 top-1 錯誤率
可以看到,新提出的 BBN 模型在所有數據集上均取得了最佳結果,對比的方法包括之前最佳的方法 CB-Focal 和 LDAM-DRW。
表 2 則給出了在 iNaturalist 2018 和 iNaturalist 2017 這兩個大規模長尾數據集上的結果。
▲ 表2. ResNet-50 在 iNaturalist 2018 和 iNaturalist 2017 上的 top-1 錯誤率
和前面的結果一樣,新提出的 BBN 仍然更優。此外,由于 iNaturalist 數據集規模很大,曠視研究院還使用 2× 調度器進行了實驗。同時,為了公平地比較,研究者也使用 2× 調度器訓練了之前最佳的 LDAM-DRW。
可以明顯看到,使用 2× 調度器的 BBN 的表現顯著優于未使用 2× 調度器的 BBN 的表現。此外,BBN(2×) 的表現也明顯優于 LDAM-DRW (2×)。
結論
本文首先探索了類別再平衡策略對深度網絡的表征學習和分類器學習產生的影響,并揭示出這些策略雖然可以顯著促進分類器學習,但也會對表征學習產生一定的負面影響。
基于此,本文提出了一種帶有累積學習策略的雙分支網絡 BBN,可以同時考慮到表征學習與分類器學習,大幅提升長尾識別任務的性能。
經過廣泛的實驗驗證,曠視研究院證明 BBN 能在長尾基準數據集上取得最佳的結果,其中包括大規模的 iNaturalist 數據集。未來,曠視研究院還將繼續探索 BBN 模型在長尾檢測問題上的應用,并希望通過 BBN 開源項目促進社區在長尾問題方面的探索和研究。
歡迎加入曠視南京研究院交流群
或添加微信farman7230入群
參考文獻
[1] Yin Cui, Menglin Jia, Tsung-Yi Lin, Yang Song, and Serge Belongie. Class-balanced loss based on effective number of samples. In CVPR, pages 9268–9277, 2019.
[2] Haibo He and Edwardo A Garcia. Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering, 21(9):1263–1284, 2009.
[3] Chen Huang,Yining Li, Chen ChangeLoy, and Xiaoou Tang. Learning deep representation for imbalanced classification. In CVPR, pages 5375–5384, 2016.
[4] Xiu-Shen Wei, Peng Wang, Lingqiao Liu, Chunhua Shen, and Jianxin Wu. Piecewise classifier mappings: Learning fine-grained learners for novel categories with few examples. IEEE Transactions on Image Processing, 28(12):6116–6125, 2019.
[5] Nathalie Japkowicz and Shaju Stephen. The class imbalance problem: A systematic study. Intelligent Data Analysis, 6(5):429–449, 2002.
[6] Xiu-Shen Wei, Quan Cui, Lei Yang, Peng Wang, and Lingqiao Liu. RPC: A large-scale retail product checkout dataset. arXiv preprint arXiv:1901.07249, pages 1–24, 2019.
[7] Mengye Ren, Wenyuan Zeng, Bin Yang, and Raquel Urtasun. Learning to reweight examples for robust deep learning. In ICML, pages 1–13, 2018.
[8] Li Shen, Zhouchen Lin, and Qingming Huang. Relay back-propagation for effective learning of deep convolutional neural networks. In ECCV, pages 467–482, 2016.
[9] Yu-Xiong Wang, Deva Ramanan, and Martial Hebert. Learning to model the tail. In NeurIPS, pages 7029–7039, 2017.
[10] Xiu-Shen Wei, Jian-Hao Luo, Jianxin Wu, and Zhi-Hua Zhou. Selective convolutional descriptor aggregation for fine-grained image retrieval. IEEE Transactions on Image Processing, 26(6):2868–2881, 2017.
往期解讀
CVPR 2020 | 曠視研究院提出PVN3D:基于3D關鍵點投票網絡的單目6DoF位姿估計算法
CVPR 2020 | 曠視研究院提出SAT:優化解決半監督視頻物體分割問題
CVPR?2020|曠視研究院提出新方法,優化解決遮擋行人重識別問題
CVPR?2020?Oral|曠視研究院提出Circle Loss,革新深度特征學習范式
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的CVPR 2020 Oral | 旷视研究院提出双边分支网络BBN:攻坚长尾分布的现实世界任务...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 苹果 macOS 15.0.1 发布,修
- 下一篇: SpaceX新一轮融资20亿美元