行人重识别基本介绍
行人重識(shí)別(ReID)基本介紹
前言
最近一段時(shí)間開(kāi)始了深度學(xué)習(xí)領(lǐng)域的學(xué)習(xí),但總是東看看西看看停留在表面。看過(guò)的東西很快就忘了,遇到不懂的地方也都就扔到了一邊,鑒于學(xué)術(shù)和畢業(yè)上的壓力,決定開(kāi)始更新這個(gè)博客,一方面記錄整理自己學(xué)過(guò)的東西,另一方面也為了督促自己每天都能夠有所進(jìn)步。
這篇文章是在學(xué)習(xí)羅浩老師發(fā)布在bilibili上的課程后進(jìn)行的,對(duì)于那些準(zhǔn)備進(jìn)入行人重識(shí)別領(lǐng)域的小白來(lái)說(shuō),在這里推薦一下羅浩老師的課程。雖說(shuō)發(fā)布時(shí)間已經(jīng)是幾年前了,有些框架或者知識(shí)已經(jīng)更新,但仍是不可多得的入門(mén)材料。
b站浙江大學(xué)羅浩博士行人重識(shí)別課程鏈接
定義
行人重識(shí)別(Person re-identification)也稱(chēng)行人再識(shí)別, 被廣泛認(rèn)為是一個(gè)圖像檢索的子問(wèn)題, 是利用計(jì)算機(jī)視覺(jué)技術(shù)判斷圖像或者視頻中是否存在特定行人的技術(shù), 即給定一個(gè)監(jiān)控行人圖像檢索跨設(shè)備下的該行人圖像。行人重識(shí)別技術(shù)可以彌補(bǔ)目前固定攝像頭的視覺(jué)局限, 并可與行人檢測(cè)、行人跟蹤技術(shù)相結(jié)合, 應(yīng)用于視頻監(jiān)控、智能安防等領(lǐng)域。
行人重識(shí)別系統(tǒng)
一個(gè)完整的行人重識(shí)別系統(tǒng)包括以下幾個(gè)部分:
1.數(shù)據(jù)
- 原始視頻幀
就是我們通過(guò)攝像設(shè)備獲取的正常視頻圖像。舉個(gè)栗子,假如是警察在追查犯罪嫌疑人的逃跑路徑,那么原始視頻幀就是犯罪現(xiàn)場(chǎng)周?chē)乃斜O(jiān)控視頻。 - 帶檢索行人圖像
指的就是我們所要查找的行人的圖片,作為Probe輸入。還是上面那個(gè)栗子的話(huà),帶檢索行人圖像就是嫌犯的圖像。
2.行人重識(shí)別系統(tǒng)
- 行人檢測(cè)
主要用于檢測(cè)視頻中出現(xiàn)的人像,作為一個(gè)行人重識(shí)別首先要做到的就是能夠?qū)D片中的行人識(shí)別出來(lái),稱(chēng)為Gallery輸入。當(dāng)然,在學(xué)術(shù)研究領(lǐng)域,行人重識(shí)別主要還是關(guān)注的下面這個(gè)部分,而對(duì)于行人檢測(cè)這部分多選擇采用目前已經(jīng)設(shè)計(jì)好的框架。 - 行人重識(shí)別
這一部分就是對(duì)上面的Probe以及Gallery進(jìn)行特征提取,當(dāng)然提取的方式可以是手工提取,也可以使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行提取。然后呢,就是對(duì)圖片的相似度進(jìn)行度量,根據(jù)相似圖進(jìn)行排序。
針對(duì)行人重識(shí)別系統(tǒng)從細(xì)節(jié)來(lái)說(shuō),包括下面幾個(gè)部分:
- 特征提取(feature Extraction):學(xué)習(xí)能夠應(yīng)對(duì)在不同攝像頭下行人變化的特征。
- 度量學(xué)習(xí)(Metric Learning) :將學(xué)習(xí)到的特征映射到新的空間使相同的人更近不同的人更遠(yuǎn)。
- 圖像檢索(Matching):根據(jù)圖片特征之間的距離進(jìn)行排序,返回檢索結(jié)果。
數(shù)據(jù)集
數(shù)據(jù)集通常是通過(guò)人工標(biāo)注或者檢測(cè)算法得到的行人圖片,目前與檢測(cè)獨(dú)立,注重識(shí)別
? 數(shù)據(jù)集分為訓(xùn)練集 、 驗(yàn)證集 、 Query 、Gallery
? 在訓(xùn)練集上進(jìn)行模型的訓(xùn)練,得到模型后對(duì)Query與Gallery中的圖片提取特征計(jì)算相似
度,對(duì)于每個(gè)Query在Gallery中找出前N個(gè)與其相似的圖片
? 訓(xùn)練、測(cè)試中人物身份不重復(fù)
現(xiàn)存的數(shù)據(jù)集可以分為兩類(lèi):
單幀數(shù)據(jù)集
單幀呢就是指采集的圖片為單張的,不連續(xù)的圖片。在標(biāo)注時(shí),一張圖片就是一個(gè)id。
序列數(shù)據(jù)集
相比較單幀的我們可以看出序列數(shù)據(jù)集的圖片都是連續(xù)的動(dòng)作。而且不同于單幀的圖片,是一組圖片才是一個(gè)id。
在這里順便給出一個(gè)網(wǎng)站,這個(gè)網(wǎng)站歸納了常用的行人再識(shí)別領(lǐng)域的數(shù)據(jù)集網(wǎng)站,但最常用的還是上面列舉的幾個(gè):行人再識(shí)別數(shù)據(jù)集.
常用評(píng)價(jià)指標(biāo)
1.rank-k
rank-k:算法返回的排序列表中,前k位為存在檢索目標(biāo)則稱(chēng)為rank-k命中
2.CMC曲線(xiàn)
Cumulative Match Characteristic (CMC) curve:計(jì)算rank-k的擊中率,形成rank-acc的曲線(xiàn)
3.mAP曲線(xiàn)
mAP(mean average precision):反應(yīng)檢索的人在數(shù)據(jù)庫(kù)中所有正確的圖片排在排序列表前面的程度,能更加全面的衡量ReID算法的性能。
評(píng)價(jià)模式
1.single shot vs multi shot
Single shot是指gallery中每個(gè)人的圖像為一張(N=1),而multi shot是指gallery中每個(gè)人的圖像為N>1張圖像。同樣的Rank-k下,一般N越大,得到的識(shí)別率越高。
2.single query vs multi query
Single query是指probe中每個(gè)人的圖像為一張(N=1),而multi query是指probe中每個(gè)人的圖像為N>1張圖像,然后融合N張圖片的特征(最大池化或者平均池化)作為最終特征。同樣的Rank-k下,一般N越大,得到的識(shí)別率越高。
行人重識(shí)別方法
傳統(tǒng)方法——手工設(shè)計(jì)特征+距離度量
- 手工特征:
- 顏色空間:RGB、HSV、LAB、XYZ、YCbCr、ELF、ELF16
- 紋理空間:LBP、Gabor
- 局部特征:SIFT、HOG、SURF
- 專(zhuān)用特征:LDFV、ColorInv、SDALP、LOMO
- 距離度量:
- 常用距離:歐式距離、馬氏距離、余弦距離
- 度量學(xué)習(xí):LFDA、MFA、LMNN、LADF、XQDA、KISSME
深度學(xué)習(xí)方法
在這里總結(jié)概括一下基于深度學(xué)習(xí)的行人重識(shí)別方法,根據(jù)訓(xùn)練損失可以分為基于表征學(xué)習(xí)和度量學(xué)習(xí);根據(jù)特征是否考慮局部特征可以分為基于全局特征和基于局部特征特征;根據(jù)數(shù)據(jù)不同可以分為基于單幀圖像和基于視頻序列的方法;除此之外呢,還有一類(lèi)基于GAN的的方法。(這些方法在后面都會(huì)提到)
- 基于表征學(xué)習(xí)的方法
- 基于度量學(xué)習(xí)的方法
- 基于局部特征的方法
- 基于視頻序列的方法
- 基于GAN網(wǎng)絡(luò)的方法
可視化
本身就是對(duì)識(shí)別出來(lái)的圖片進(jìn)行一種聚類(lèi)分析。
好了,我的這篇博客到這里就結(jié)束了,歡迎研究這個(gè)方向的朋友一起交流。
總結(jié)
- 上一篇: 翻转课堂融入计算机课,“翻转课堂”教学模
- 下一篇: 腾讯+字节+阿里面经真题汇总,总结到位