Face++ 论文解读:一种新的行人重识别度量学习方法 | PaperDaily #20
在碎片化閱讀充斥眼球的時(shí)代,越來越少的人會(huì)去關(guān)注每篇論文背后的探索和思考。
在這個(gè)欄目里,你會(huì)快速 get 每篇精選論文的亮點(diǎn)和痛點(diǎn),時(shí)刻緊跟 AI 前沿成果。
點(diǎn)擊本文底部的「閱讀原文」即刻加入社區(qū),查看更多最新論文推薦。
這是 PaperDaily 的第?20?篇文章本期推薦的論文筆記來自 PaperWeekly 社區(qū)用戶 @LUOHAO,他也是這篇論文的作者之一。本文提出了一種新的度量學(xué)習(xí)方法 Margin sample mining loss, MSML。
Triplet loss 是一種非常常用的度量學(xué)習(xí)方法,Quadruplet loss 和 Triplet hard batch loss(TriHard loss)是它的兩個(gè)改進(jìn)版本,而 MSML 是吸收了 Quadruplet loss 和 TriHard loss 兩個(gè)優(yōu)點(diǎn)的綜合體。
實(shí)驗(yàn)證明 MSML 能夠在 person ReID 的公開數(shù)據(jù)集上取得很好的結(jié)果。 這個(gè)方法不止可以應(yīng)用于 person ReID,而是一種通用的度量學(xué)習(xí)方法,進(jìn)一步可以延伸到圖像檢索等相關(guān)的各個(gè)領(lǐng)域。
如果你對(duì)本文工作感興趣,點(diǎn)擊底部的閱讀原文即可查看原論文。
關(guān)于作者:羅浩,浙江大學(xué)博士研究生,研究方向?yàn)橛?jì)算機(jī)視覺和深度學(xué)習(xí),現(xiàn)為曠視科技(Face++)research intern。
■?論文 | Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification
■ 鏈接 | https://www.paperweekly.site/papers/1069
■ 作者 | LUOHAO
1. 摘要
Person re-identification (ReID) is an important task in computer vision. Recently, deep learning with a metric learning loss has become a common framework for ReID. In this paper, we propose a new metric learning loss with hard sample mining called margin smaple mining loss (MSML) which can achieve better accuracy compared with other metric learning losses, such as triplet loss. In experiments, our proposed methods outperforms most of the state-ofthe-art algorithms on Market1501, MARS, CUHK03 and CUHK-SYSU.?
行人重識(shí)別是一個(gè)計(jì)算機(jī)視覺領(lǐng)域非常重要的一個(gè)任務(wù)。基于度量學(xué)習(xí)方法的深度學(xué)習(xí)技術(shù)如今成為了 ReID 的主流方法。在本論文中,我們提出了一種新的引入難樣本采樣的度量學(xué)習(xí)方法,這種方法叫做 MSML。實(shí)驗(yàn)表明,我們提出的方法擊敗了目前大多數(shù)的方法,在 Market1501,MARS,CUHK03 和 CUHK-SYSU 數(shù)據(jù)集上取得了 state-of-the-arts 的結(jié)果。
2. 方法
Triplet loss 是一種非常常用的度量學(xué)習(xí)方法,而 Quadruplet loss 和 TriHard loss 是它的兩個(gè)改進(jìn)版本。Quadruplet loss 相對(duì)于 Triplet loss 考慮了正負(fù)樣本對(duì)之間的絕對(duì)距離,而 TriHard loss 則是引入了 hard sample mining 的思想,MSML 則吸收了這兩個(gè)優(yōu)點(diǎn)。?
度量學(xué)習(xí)的目標(biāo)是學(xué)習(xí)一個(gè)函數(shù),使得空間上語義相似度反映在空間的距離上。?
通常我們需要定義一個(gè)距離度量函數(shù)來表示嵌入空間(Embedding space)的距離,而這個(gè)距離也用來重識(shí)別行人圖片。?
在國內(nèi)外研究現(xiàn)狀里面介紹的三元組損失、四元組損失和 TriHard 損失都是典型度量學(xué)習(xí)方法。給定一個(gè)三元組 {a,p,n},三元組損失表示為:
三元組損失只考慮了正負(fù)樣本對(duì)之間的相對(duì)距離。為了引入正負(fù)樣本對(duì)之間的絕對(duì)距離,四元組損失加入一張負(fù)樣本組成了四元組 {a,p,n1,n2},而四元組損失也定義為:
假如我們忽視參數(shù) α 和 β 的影響,我們可以用一種更加通用的形式表示四元組損失:
其中 m 和 n 是一對(duì)負(fù)樣本對(duì),m 和 a 既可以是一對(duì)正樣本對(duì)也可以是一對(duì)負(fù)樣本對(duì)。但是直接使用 Lq′ 并不能取得很好的結(jié)果,因?yàn)殡S著數(shù)據(jù)量的上升,可能四元組組合數(shù)量急劇上升。絕大部分樣本對(duì)都是比較簡單的,這限制了模型的性能。
為了解決這個(gè)問題,我們采用了 TriHard 損失使用的難樣本采樣思想。TriHard 損失是在一個(gè) batch 里面計(jì)算三元組損失對(duì)于 batch 中的每一張圖片 a,我們可以挑選一個(gè)最難的正樣本和一個(gè)最難的負(fù)樣本和 a 組成一個(gè)三元組。我們定義和 a 為相同 ID 的圖片集為 A,剩下不同 ID 的圖片圖片集為 B,則 TriHard 損失表示為:
而 TriHard 損失同樣只考慮了正負(fù)樣本對(duì)之間的相對(duì)距離,而沒有考慮它們之間的絕對(duì)距離。于是我們把這種難樣本采樣的思想引入到 Lq′,可以得到:
其中?a,p,m,n 均是 batch 中的圖片,a,p 是 batch 中最不像的正樣本對(duì),m,n 是batch 中最像的負(fù)樣本對(duì),a,m 皆可以是正樣本對(duì)也可以是負(fù)樣本對(duì)。
概括而言 ,TriHard 損失是針對(duì) batch 中的每一張圖片都挑選了一個(gè)三元組,而 MSML 損失只挑選出最難的一個(gè)正樣本對(duì)和最難的一個(gè)負(fù)樣本對(duì)計(jì)算損失。所以,MSML 是比 TriHard 更難的一種難樣本采樣。
此外,可以看作是正樣本對(duì)距離的上界,看作是負(fù)樣本對(duì)的下界。MSML 是為了把正負(fù)樣本對(duì)的邊界給推開,因此命名為邊界樣本挖掘損失。
MSML 只用了兩對(duì)樣本對(duì)計(jì)算損失,看上去浪費(fèi)了很多訓(xùn)練數(shù)據(jù)。但是這兩對(duì)樣本對(duì)是根據(jù)整個(gè) batch 的結(jié)果挑選出來了,所以 batch 中的其他圖片也間接影響了最終的損失。并且隨著訓(xùn)練周期的增加,幾乎所有的數(shù)據(jù)都會(huì)參與損失的計(jì)算。
總的概括,MSML 是同時(shí)兼顧相對(duì)距離和絕對(duì)距離并引入了難樣本采樣思想的度量學(xué)習(xí)方法。
如果用一張圖概括這幾個(gè) loss 之間的關(guān)系的話,可以表示為下圖。
3. 結(jié)果
論文里在 Market1501,MARS,CUHK03 和 CUHK-SYSU 數(shù)據(jù)集都進(jìn)行了對(duì)比實(shí)驗(yàn),為了減少實(shí)驗(yàn)數(shù)量,并沒有在每個(gè)數(shù)據(jù)集上都做一次實(shí)驗(yàn),而是用所有數(shù)據(jù)集的訓(xùn)練集訓(xùn)練一個(gè)模型。
為了增加結(jié)果的可信度,使用了 Resnet50、inception-v2、Resnet-Xecption 三個(gè)在 ImageNet 上 pre-trained 的網(wǎng)絡(luò)作為 base model,和 classification、Triplet loss、Quadruplet loss、TriHard loss 四個(gè)損失函數(shù)進(jìn)行了對(duì)比。結(jié)果如下表,可以看出 MSML 的結(jié)果還是很不錯(cuò)的。
簡評(píng)
MSML 是一種新的度量學(xué)習(xí)方法,吸收了目前已有的一些度量學(xué)習(xí)方法的優(yōu)點(diǎn),能過進(jìn)一步提升模型的泛化能力。本文在行人重識(shí)別問題上發(fā)表了這個(gè)損失函數(shù),但是這是一個(gè)在圖像檢索領(lǐng)域可以通用的度量學(xué)習(xí)方法。
本文由 AI 學(xué)術(shù)社區(qū) PaperWeekly 精選推薦,社區(qū)目前已覆蓋自然語言處理、計(jì)算機(jī)視覺、人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和信息檢索等研究方向,點(diǎn)擊「閱讀原文」即刻加入社區(qū)!
? ? ? ? ??
?我是彩蛋
?解鎖新功能:熱門職位推薦!
PaperWeekly小程序升級(jí)啦
今日arXiv√猜你喜歡√熱門職位√
找全職找實(shí)習(xí)都不是問題
?
?解鎖方式?
1. 識(shí)別下方二維碼打開小程序
2. 用PaperWeekly社區(qū)賬號(hào)進(jìn)行登陸
3. 登陸后即可解鎖所有功能
?職位發(fā)布?
請?zhí)砑有≈治⑿?#xff08;pwbot01)進(jìn)行咨詢
?
長按識(shí)別二維碼,使用小程序
*點(diǎn)擊閱讀原文即可注冊
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 查看原論文
總結(jié)
以上是生活随笔為你收集整理的Face++ 论文解读:一种新的行人重识别度量学习方法 | PaperDaily #20的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 本期最新 9 篇论文,帮你完美解决「读什
- 下一篇: CVPR2017有哪些值得读的Image