实验代做 行人识别_CVPR 2020 | 针对VI-ReID的分层跨模态行人识别
本文介紹的是CVPR2020入選論文《Hi-CMD: Hierarchical Cross-Modality Disentanglement for Visible-Infrared Person Re-Identification》,論文作者來自韓國科學(xué)技術(shù)院。
作者 | 張景俊
編輯 | 叢 末
通過對(duì)夜間視頻的監(jiān)控進(jìn)行跨模態(tài)行人識(shí)別是當(dāng)下ReID方向的一個(gè)的難點(diǎn),目前已經(jīng)受到學(xué)術(shù)界的廣泛關(guān)注。
在此背景下,作者提出了一種分層跨模態(tài)行人識(shí)別(Hi-CMD)方法。為了實(shí)現(xiàn)該方法,作者引入了ID-preserving圖像的生成網(wǎng)絡(luò)和層次特征學(xué)習(xí)模塊,通過這種網(wǎng)絡(luò)結(jié)構(gòu)可有效地解決行人在不同姿勢(shì)和照明條件下進(jìn)行ReID任務(wù)。
論文地址:https://arxiv.org/pdf/1912.01230.pdf
1 任務(wù)概覽
目前學(xué)術(shù)界實(shí)現(xiàn)ReID的方法很多,主要思想可概括為通過RGB-RGB匹配的人形外觀,處理單模態(tài)相機(jī)捕獲的圖像。但是,需要注意的是,傳統(tǒng)的可見光相機(jī)是無法在光線昏暗的條件下捕捉到人的所有外表特征。當(dāng)遇到這種情況,大多數(shù)監(jiān)控?cái)z像機(jī)則會(huì)自動(dòng)地從可見模式切換為紅外模式,所以有必要針對(duì)VI-ReID(Visible-infrared personre-identification)進(jìn)行研究。
圖1(a)是作者針對(duì)VI-ReID任務(wù),為解決跨模態(tài)行人在識(shí)別任務(wù)提出的一種新方法,簡記為Hi-CMD。從圖中可以看到,該方法從ID-discriminative和ID-excluded兩個(gè)角度出發(fā),作者采用的網(wǎng)絡(luò)框架是ID-PIG網(wǎng)絡(luò),框架圖如圖1(b)所示。
2 框架結(jié)構(gòu)
圖2中X1代表的是visibleimage,X2代表的是 infrared image。對(duì)于每張待檢測(cè)的圖片,都對(duì)應(yīng)著一個(gè)標(biāo)簽y, X1和X2兩特征向量之間的距離作者采用了歐式距離進(jìn)行計(jì)算。對(duì)于ID-PIG網(wǎng)絡(luò)而言,它主要包含兩階段。
在第一階段,作者設(shè)計(jì)了一個(gè)原型編碼器和一個(gè)屬性編碼器,當(dāng)i = 1時(shí),對(duì)應(yīng)的是visible images, i = 2時(shí)對(duì)應(yīng)的是r infrared images。其中, 原型編碼器中的pi表示的是人物外形的向量,例如衣服的圖案和身體的輪廓形狀等,而屬性編碼器中的ai則代表的是在不同的姿勢(shì)和照明的情況下,諸如衣服樣式和外觀形態(tài)等的向量。在圖像的生成過程中,作者采用通過交換一對(duì)具有相同ID的兩幅圖像的ID-excluded來合成跨模態(tài)圖像。其中圖像交叉融合對(duì)應(yīng)的損失函數(shù)為:
為了最大限度的提高generationquality,在此基礎(chǔ)上,作者又分別添加了三個(gè)reconstruction損失,分別為same modality reconstruction loss、cycle reconstruction loss和code reconstruction loss,如圖3所示。其中same modality reconstruction loss主要是為了解決正則化問題,cycle reconstruction loss主要針對(duì)于無監(jiān)督圖像轉(zhuǎn)換問題,code reconstruction loss主要是為了重構(gòu) ID-excluded。最終的損失函數(shù)表達(dá)式如下所示:
上述過程即為ID-PIG網(wǎng)絡(luò)的主要工作,通過該網(wǎng)絡(luò)結(jié)構(gòu)對(duì)圖像進(jìn)行的處理,將特征值輸入到分層特征學(xué)習(xí)模型(HFL),完成對(duì)跨模態(tài)行人VI-ReID任務(wù),如圖2所示。
3 實(shí)驗(yàn)效果
實(shí)驗(yàn)是基于傳統(tǒng)的VI-ReID數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)的,分別為RegDB和SYSUMM01。其中RegDB數(shù)據(jù)集由2060張visible圖像和具有206種類型的2060 張far-infrared圖像作為訓(xùn)練集,它的測(cè)試集包含206種類型和2060張visible圖像和2060張far-infrared圖像。
SYSU數(shù)據(jù)集包含22,258張visible圖像和具有395種類型的11,909張far-infrared圖像作為訓(xùn)練集,它的測(cè)試集包括具有96種類型的3,803張near-infrared圖像和301張visible圖像。本文所有代碼均是基于Pytorch框架在NVIDIA Titan Xp GPU環(huán)境下運(yùn)行的,模型評(píng)估指標(biāo)作者采用了兩種業(yè)界主流的指標(biāo):CMC和mAP。作者采用了學(xué)習(xí)率為0.001的隨機(jī)梯度,對(duì)于ID-PIG網(wǎng)絡(luò)采用了學(xué)習(xí)率為0.0001的Adam優(yōu)化器。
表1給出了不同模型在兩種數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。作者分別針對(duì)HOG、LOMO、MLBP、GSM 、SVDNET 、PCB等方法進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)他們的mAP都很低,最高的也不超過21,而本文提的Hi-CMD模型,它的mAP值在RegDB數(shù)據(jù)集上可高達(dá)66.04,效果秒殺一切,從而證實(shí)了該方法的優(yōu)良性。
文章的創(chuàng)新點(diǎn):
1、提出了種一種新穎的VI-ReID行人跨模態(tài)識(shí)別方法:Hi-CMD,與傳統(tǒng)的模型方法相比,該模型通過區(qū)分ID-discriminative和可見紅外圖像中的ID-excluded兩種因素,有效地減少了跨模態(tài)和模態(tài)內(nèi)的差異。
2、利用ID-PIG網(wǎng)絡(luò),避免可能因訓(xùn)練數(shù)據(jù)不足而帶來的問題。
總結(jié)
以上是生活随笔為你收集整理的实验代做 行人识别_CVPR 2020 | 针对VI-ReID的分层跨模态行人识别的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 宁波python学习_python学习第
- 下一篇: agv机器人托举结构_AGV机器人常见减