當前位置：首頁 >

行人重识别(3)——行人重识别（基于图像）综述

發布時間：2023/12/8 35 豆豆

生活随笔收集整理的這篇文章主要介紹了行人重识别(3)——行人重识别（基于图像）综述小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

！轉載請注明原文地址！——東方旅行者

更多行人重識別文章移步我的專欄：行人重識別專欄

本文目錄

基于圖像的行人重識別
- 一、表征學習方法
- - 1.淺層視覺特征
  - 2.中層視覺特征（語義屬性）
  - 3.深層視覺特征
  - 4.多種特征結合
- 二、度量學習方法
- 三、深度學習方法
- 1.按照損失函數分類
- - 1.1基于表征學習的方法
  - 1.2基于度量學習的方法
  - 1.3表征學習與度量學習的對比
- 2.按照研究方向分類
- - 2.1基于區域的方法
  - 2.2基于注意力機制的方法
  - 2.3基于姿勢分類的方法
  - 2.4基于生成對抗網絡的方法
- 3.各種方法rank-1與mAP對比
- 四、基于圖像的行人重識別常見數據集
- 五、參考文獻

基于圖像的行人重識別

一、表征學習方法

基于特征描述的方法關注如何找到較好的描述行人外貌特征的模型。

1.淺層視覺特征

顏色與紋理等是淺層視覺特征描述圖像的主要手段。基本上都是將圖像劃分成多個區域，對每個區域提取多種不同的底層視覺特征，組合后得到魯棒性更好的特征表示形式。最常用的就是顏色直方圖，多數情況下行人的衣服顏色結構簡單，因此顏色表示是有效的特征，通常用RGB、HSV直方圖表示。把RGB空間的圖像轉化成HSL和YUV顏色空間，觀察對數顏色空間中目標像素值的分布，顏色特征在不同光照或角度等行人識別的不適環境中具有一定的不變性。形狀特征如方向梯度直方圖（HOG）以及局部特征，如局部不變特征–尺度不變特征變換（SIFT），SURF和Covariance描述子ELF方法中，結合RGB、YUV顏色空間的顏色直方圖，具有旋轉不變性的Schmid和Gabor濾波器計算紋理直方圖。還有局部二值模式（LBP）、Gabor濾波器、共生矩陣等。其中中國科學院自動化所模式識別國家重點實驗室廖勝才副研究員等在《Person Re-identification by Local Maximal Occurrence Representation and Metric Learning》中提出了LOMO+XQDA的行人重識別方法，在VIPeR，GRID，CUHK01和CUHK03四個數據集上均提高了在當時（2015.05.07）四個數據集上的RANK-1準確率。

2.中層視覺特征（語義屬性）

中層視覺特征（語義屬性）就是如是否攜帶包、是否戴眼鏡、頭發長短顏色等信息。相同的行人在不同視頻拍攝下語義屬性很少變化，具體是使用SVM定義行人圖像的語義情況。語義屬性可以結合屬性權值與淺層特征集合，最終描述行人圖像。

3.深層視覺特征

特征的選擇技術對行人重識別的識別率的性能進行提升，如Fisher向量編碼；提取顏色或紋理直方圖，預先定義塊或條紋形狀的圖像區域；或者編碼區域特征描述符來建立高級視覺特征。受到多視角行為識別研究和Fisher向量編碼的影響，一種捕獲軟矩陣的方法，即DynFV特征和捕獲步態和移動軌跡的Fisher向量編碼的密集短軌跡時間金字塔特征被提出。Fisher向量編碼方法是首先用來解決大尺度圖像分類的方法，也能改善行為識別的性能。Karanam等對行人的n幅圖像的每個圖像分成6個水平條帶，在每個條帶上計算紋理和顏色直方圖。在YUV、白化的RGB顏色空間計算直方圖建立顏色描述符，并用LFDA降維。T.Matsukawa等提出GOG，把一幅圖像分成水平條帶和局部塊，每個條帶用一個高斯分布建模。每個條帶看作一系列這樣的高斯分布，然后用一個單一的高斯分布總體表示。GOG特征提取的方法好表現在用像素級特征的一個局部高斯分布來描述全局顏色和紋理分布，并且GOG是局部顏色和紋理結構的分層模型，可以從一個人的衣服的某些部分得到。
此外，深度學習也被應用于行人重識別的特征提取中，在AlexNet-Finetune中，開始在ImageNet數據集上預訓練的基于AlexNet結構的CNN，并用這個數據集對數據進行微調。在微調過程中，不修改卷積層的權重，訓練后兩個全連接層。McLaughlin等采用了類似的方法，對圖像提取顏色和光流特征，采用卷積神經網絡（CNN）處理得到高層表征，然后用循環神經網絡（RNN）捕捉時間信息，然后池化得到序列特征。T.Xiao等對來自各個領域的數據訓練出同一個卷積神經網絡（CNN），有些神經元學習各個領域共享的表征，而其他的神經元對特定的某個區域有效，得到魯棒的CNN特征表示。

4.多種特征結合

多特征組合往往會取得好的識別效果。有的研究將圖像外表特征和姿態特征相結合解決圖像拍攝視角不同給圖像識別帶來的困難。有的采用多種特征表示圖像并進行相似度計算，對計算得到的相似得分進行融合，實現圖像識別。有的研究結合圖像視覺特征和部分標記信息生成圖像表示向量在此基礎上實現更準確的圖像識別。有的研究結合不完整文字描述信息提出類似技術。。有的研究提出一種新的圖像特征融合方法通過組合帶重疊的條塊加權直方圖特征和顏色名描述特征采用KISSME度量方法實現圖像識別。有的研究將來自于HSV顏色空間的多個通道顏色、紋理、空間結構等不同底層特征進行融合實現圖像識別。有的研究通過多屬性融合和多分類器集成提高行人識別精度。有的研究提出一種基于圖的多特征描述融合方法并通過圖優化學習一次性學習檢測圖像和畫廊所有圖像的相似度。有的研究抽取多種底層特征采用不同的度量方法并實現多度量方法的優化集成。有的研究通過超圖融合有效利用現有多個圖像描述特征,超圖可同時獲取識別對象間的成對和高階關聯通過超圖優化獲得檢測圖像和畫廊圖像間的相似性。有的研究抽取多層次圖像描述特征以便獲得圖像更多的視覺判別線索和隱含的空間結構。有的研究同時抽取圖像的底層和中間層特征計算相似得分并提出一種加權方法融合各種模式。有的研究綜合分析了圖像特征抽取與描述算法提出基于空間金字塔的統計特征抽取框架在此基礎上綜合評估了各種特征抽取方法和融合策略。

二、度量學習方法

基于度量學習的方法關注如何找到有效的行人特征相似度的度量準則。

由于攝像機的視角、尺度、光照、服飾與姿態變化、分辨率不同以及存在遮擋，不同攝像頭間可能會失去連續的位置和運動信息，使用歐氏距離、巴氏距離等標準的距離度量來度量行人表觀特征的相似度不能獲得很好的重識別效果，因此，研究者們提出通過度量學習的方法。該方法獲得一個新的距離度量空間，使得同一行人不同圖像的特征距離小于與不同人的距離。距離度量學習方法一般是基于馬氏距離而進行。2002年，Xing等提出以馬氏距離為基礎的度量學習算法，根據樣本的類別標簽，將具有相同標簽的樣本組成正樣本對，反之組成負樣本對，并以此作為約束訓練得到一個馬氏矩陣，通過這樣學習到的距離尺度變換，使得相同的人的特征距離減小，而不同的人特征距離增大，以此開創了行人重識別中距離度量學習的先河。

目前在行人重識別研究中有一些普遍用于比較的度量學習算法。Weinberger等提出LMNN算法，通過學習一種距離度量，使在一個新的轉換空間中，對于一個輸入的k個近鄰屬于相同的類別，而不同類別的樣本與輸入樣本保持一定大的距離。Dikmen等對LMNN進行改進提出LMNN-R方法，用所有樣本點的平均近鄰邊界來代替LMNN中不同樣本點所采用的各自近鄰邊界，相較于LMNN方法具有更強的約束效果。同一年，Guillaumin等基于概率論提出了LDML算法。LDML算法基于邏輯回歸的思想,使用S型函數來表示樣本對是否屬于等值約束的概率。Prosser等將重識別問題抽象為相對排序問題，提出Rank SVM學習到一個子空間，在這個子空間中相匹配的圖像有更高的排序。

Zheng等提出PRDC算法，相同人的圖像組成同類樣本對，不同行人目標之間組成異類樣本對，獲得度量函數對應的系數矩陣，優化目標函數使得同類樣本對之間的匹配距離小于異類樣本對之間的距離，對每一個樣本，選擇一個同類樣本和異類樣本與其形成三元組，在訓練過程通過最小化異類樣本距離減去同類樣本距離的和，得到滿足約束的距離度量矩陣。算法的基本思想在于增加正確匹配之間會擁有較短距離的可能性。2013年，Zheng等在PRDC的基礎上提出了一種相對距離比較算法RDC，RDC采用Adaboost算法來減少對標注樣本的需求。

Kostinger等提出KISSME算法，認為所有相似樣本對和不相似樣本對的差向量均滿足一個高斯分布，因此可以通過相似和不相似訓練樣本對分別大致計算出均值向量和協方差矩陣。給定兩個樣本組成的樣本對，作者分別計算該樣本對屬于相似樣本對的概率和該樣本屬于不相似樣本對的概率，并用其比值表示兩個樣本之間的距離，并把該距離變幻成馬氏距離的形式，而馬氏距離中的矩陣正好等于相似樣本對高斯分布協方差矩陣的逆減去不相似樣本對高斯分布協方差矩陣的逆。因此，該方法不要用迭代優化過程，適合用于大尺度數據的距離度量學習。

Pedagadi等提出LFDA算法進行度量學習，該方法在進行特征提取的時候，首先提取不同特征的主要成分，然后拼接成特征向量。在距離度量學習上，該方法考慮不是對所有樣本點都給予相同的權重，考慮到了局部樣本點，應用局部Fisher判別分析方法為降維的特征提供有識別能力的空間，提高度量學習的識別率。

Liao等提出了XQDA算法，這是KISSME算法在多場景下的推廣。XQDA算法對多場景的數據進行學習，獲得原有樣本的一個子空間，同時學習一個與子空間對應的距離度量函數，該距離度量函數分別用來度量同類樣本和非同類樣本。

三、深度學習方法

深度學習方法中
根據訓練損失函數的不同可以分為基于表征學習的方法和基于度量學習的方法。
根據方法原理不同，可以將近幾年行人重識別的研究分為區域（region）、注意力（attention）、姿勢（pose）和生成對抗性網絡（GAN）四類方法。下面分別從基于表征學習的方法、基于度量學習的方法和四類研究熱點進行介紹。

1.按照損失函數分類

1.1基于表征學習的方法

雖然行人重識別的最終目標是為了學習出兩張圖片之間的相似度，但是表征學習的方法并沒有直接在訓練網絡的時候考慮圖片間的相似度，而把行人重識別任務當做分類問題或者驗證問題來看待。這類方法的特點就是網絡的最后一層全連接層輸出的并不是最終使用的圖像特征向量，而是經過一個Softmax激活函數來計算表征學習損失，前一層(倒數第二層)FC層通常為特征向量層。具體言之，分類問題是指利用行人的ID或者屬性等作為訓練標簽來訓練模型，每次只需要輸入一張圖片；驗證問題是指輸入一對（兩張）行人圖片，讓網絡來學習這兩張圖片是否屬于同一個行人。分類網絡常用的兩種損失分別是行人ID損失和屬性損失。IDE網絡將每一個行人當做分類問題的一個類別，用行人的ID作為訓練數據的標簽來訓練CNN網絡，這個網絡損失被稱為ID損失。IDE網絡是行人重識別領域非常重要的baseline基準。后來部分研究者認為，光靠行人的ID信息不足以學習出一個泛化能力足夠強的模型。因此，他們利用了額外標注的行人圖片的屬性信息，例如性別、頭發、衣著等屬性，通過引入行人屬性標簽計算屬性損失。訓練好的網絡不但要準確地預測出行人ID，還要預測出各項行人屬性，這大大增加了網絡的泛化能力。通過結合ID損失和屬性損失能夠提高網絡的泛化能力。驗證網絡是另外一種常用于行人重識別任務的表征學習方法。和分類網絡不同之處在于，驗證網絡每次需要輸入兩張圖片，這兩張圖片經過一個共享的CNN，將網絡輸出的兩個特征向量融合起來，輸入到一個只有兩個神經元的FC層，來預測這兩幅圖片是否屬于同一個行人。因此，驗證網絡本質上是一個多輸入單輸出的二分類網絡。通常，僅僅使用驗證損失訓練網絡是非常低效的，所以驗證損失會與ID損失一起使用來訓練網絡。
表征學習可以近似看作為學習樣本在特征空間的分界面。

1.2基于度量學習的方法

度量學習不同于表征學習，度量學習旨在通過網絡學習出兩張圖片的相似度。在行人重識別問題上，表現為同一行人的不同圖片間的相似度大于不同行人的不同圖片。具體為，定義一個映射f（x）：RF→RD，將圖片從原始域映射到特征域，之后再定義一個距離度量函數D（x，y）：RD×RD→R，來計算兩個特征向量之間的距離。最后通過最小化網絡的度量損失，來尋找一個最優的映射f（x），使得相同行人兩張圖片（正樣本對）的距離盡可能小，不同行人兩張圖片（負樣本對）的距離盡可能大。而這個映射f（x），就是我們訓練得到的深度卷積網絡。首先，假如有兩張輸入圖片I1和I2，通過網絡的前向傳播我們可以得到它們（歸一化后）的特征向量fI1和fI2。之后我們需要定義一個距離度量函數，這個函數并不唯一，只要能夠在特征空間描述特征向量的相似度或差異度的函數均可以作為距離度量函數。通常，為了實現端對端訓練的網絡，度量函數盡可能連續可導，使用特征的歐氏距離或者余弦距離作為度量函數，同時曼哈頓距離、漢明距離、馬氏距離等距離也可以作為度量學習的距離度量函數。常用的度量學習損失方法包括對比損失（Contrastive loss）、三元組損失（Triplet loss）、四元組損失（Quadruplet loss）。對比損失用于訓練孿生網絡。三元組損失是一種被廣泛應用的度量學習損失，三元組損失需要三張輸入圖片。和對比損失不同，一個輸入的三元組包括一對正樣本對和一對負樣本對。三張圖片分別命名為固定圖片a，正樣本圖片p和負樣本圖片n。圖片a和圖片p為一對正樣本對，圖片a和圖片n為一對負樣本對。四元組損失是三元組損失的另一個改進版本，四元組需要四張輸入圖片，和三元組不同的是多了一張負樣本圖片。即四張圖片為固定圖片a，正樣本圖片p，負樣本圖片n1和負樣本圖片n2。其中n1和n2是兩張不同行人ID的圖片。這些方法在計算度量損失時，樣本對都是從訓練集中隨機挑選。隨機挑選樣本對的方法可能經常挑選出一些容易識別的樣本對組成訓練批次，使得網絡泛化能力受限。為此，部分學者提出了難樣本采樣的方法，來挑選出難樣本對訓練網絡。常用的思路是挑選出一個訓練Batch中特征向量距離比較大（非常不像）的正樣本對和特征向量距離比較小（非常像）的負樣本對來訓練網絡。難樣本采樣技術可以明顯改進度量學習方法的性能，加快網絡的收斂，并且可以很方便地在原有度量學習方法上進行擴展，是目前廣泛采用的一種技術。
度量學習可以近似看作為樣本在特征空間進行聚類。度量學習和表征學習相比，優勢在于網絡末尾不需要接一個分類的全連接層，因此對于訓練集的行人ID數量不敏感，可以應用于訓練超大規模數據集的網絡。總體而言，度量學習比表征學習使用的更加廣泛，性能表現也略微優于表征學習。但是目前行人重識別的數據集規模還依然有限，表征學習的方法也依然得到使用。同時，融合度量學習和表征學習訓練網絡的思路也在逐漸變得流行。

1.3表征學習與度量學習的對比

表征學習的優點在于數據集量不大的時候收斂容易，模型訓練魯棒性強，訓練時間短。然而表征學習是將每一個ID的行人圖片當做一個類別，當ID數量增加到百萬、千萬甚至更多的時候，網絡最后一層是一個維度非常高的全連接層，使得網絡參數量巨大并且收斂困難。
由于直接計算特征之間的距離，度量學習的優點在于可以很方便地擴展到新的數據集，不需要根據ID數量來調整網絡的結構，此外也可以非常好地適應ID數目巨大的訓練數據。然而，度量學習相對來說收斂困難，需要比較豐富的訓練經驗來調整網絡參數，另外收斂訓練時間也比表征學習要長。
表征學習和度量學習擁有各自的優缺點，目前學術界和工業界逐漸開始聯合兩種學習損失。聯合的方式也比較直接，在傳統度量學習方法的基礎上，在特征層后面再添加一個全連接層進行ID分類學習。網絡同時優化表征學習損失和度量學習損失，來共同優化特征層。

2.按照研究方向分類

2.1基于區域的方法

基于區域的方法將行人圖像分成水平條紋或者幾個均勻的部分,可以有效的觀察各個分區的差異值；可優化內部一致性，以便更好的提取顏色和紋理特征；結合卷積神經網絡使模型具有學習的能力；對于部分遮擋和姿勢小規模的變化具有魯棒性；但是這類方法對于遮擋和姿勢不對齊等問題還存在大的挑戰，對于行人圖像姿勢的大幅度變化還有待提高。
基于區域的方法大致可以分為水平條紋分區、局部特征與局部全局特征協同三種。
水平條紋分區：由于圖像的像素不穩定，故需要一個有效的表示來對行人進行特征提取和匹配。2014年Yi等人提出了深度量度學習方法（DML），此方法是受到孿生神經網絡的啟發，用孿生卷積神經網絡、將目標行人圖像強行分成三個大的部分來評估兩圖像的相似性，此方法從理論上說，應該是歸類于基于部件的方法，但是深入觀察，發現與基于條紋的方法也有相似之處。在此之前也有一些較好的量度學習方法，比如2012年Kostinger等人驗證了KISSME方法比同類方法效果略優；Zheng等人提出相對距離比較（RDC）模型，并在三個公開的數據集上進行了實驗，實驗結果表明相對距離比較（RDC）明顯優于當下流行的其它模型。多次實驗還發現新的相對距離比較（RDC）模型對外觀和視覺效果更好，更具魯棒性，同時減少了模型的過度擬合性。在后續工作中Tao等人又在Zheng等人的基礎上進行了優化和擴展。深度量度學習（DML）較前面幾個方法優勢在于模型中學習的多通道濾波器可以同時檢測紋理和顏色特征，明顯比傳統方法中的簡單融合更合理，也使得識別過程更具靈活性。
局部特征：早期的一些研究會假設幾何和光照等因素的變化，并且可以從樣本中學習模型參數。2014年Li等人提出一種新的濾波器配對神經網絡（FPNN）模型來進行行人重識別。文獻中提出的濾波器配對神經網絡，利用濾波器和最大分組層來學習光度變換。此模型較深度量度學習更細致，把行人分成更多小塊來計算相似性，在深度神經網絡下統一完成未對準、遮擋和光度變化等問題的處理，使識別通道的各個部件聯合起來工作，提高了識別的靈活性。許多研究想通過改進原來的方法來提高行人的識別效率，然而不少識別方法中的視覺特征表示是手動的，但手動的方法容易失去空間信息導致辨別率下降，使用基于貼片的局部特征可以適當的提高辨別率，但是沒有根本的解決問題，要更好解決問題還是要求模型有從數據中學習的能力。
局部全局特征協同：前人利用深度學習的優勢，使得行人重識別技術逐漸完善，現階段還是要著力于如何降低外界因素對行人重識別的影響和加強局部特征之間的聯系。2017年Yao等人提出部分損失網絡（PL-Net）的深度學習的方法。文獻提出只看全局特征是局限的，所以把目標人物分成幾個部分來進行表示，但沒有考慮幾個局部特征之間的聯系和不對齊，依然沒有根本解決問題。2017年Zhang等人基于部件的方法提出了對齊識別（Aligned Reid）模型，實現了局部特征和全局特征協同工作。

2.2基于注意力機制的方法

針對行人的臉部是模糊的，可以考慮從行人身體上其它比較特別的局部特征入手。此類方法對于行人的遮擋和分辨率不高等問題有一定的幫助，但是在識別的過程中有可能丟失更重要的數據信息，導致識別效率不高。
在實際情況中，行人姿勢復雜，劃分的邊界框不一定能夠適應所有的行人，實現起來和理想狀態總有一定的差距，就算用復雜的匹配技術也不一定能夠得到理想的結果。針對此問題，2017年Zhao等人受到注意力模型的啟發提出了部分對齊（Part-Aligned）方法。主要步驟是，把在匹配的過程中有區別的局部進行檢測。先計算局部的表示，最后匯總各個部分之間的相似性。文章中提出的局部對齊特征表示提取器，也是一個深度神經網絡，是由完全卷積神經網絡（FCNN）組成，實驗得出較好的結果。通過研究者們分析得出，雖然在卷積神經網絡的貢獻下，結果有明顯的提高，但還是存在一些識別死角。例如對細粒度綜合特征的行人識別，沒有得到充分的解決。故2017年Liu等人基于注意力神經網絡，提出一種對細粒度特征識別有優勢的HydraPlus-Net（HPnet）網絡模型。它主要是通過將多層的注意力圖以多方向地反饋到不同的層，從而達到識別目的。之前提到遮擋、背景雜波和行人姿勢的大幅度形變等客觀因素引起的問題依然存在。在檢測過程中，為提高實驗效果，研究者們針對這些客觀因素引起的復雜問題提出許多行之有效的方法。如自動檢測的行人檢測框，此類基于注意力識別的方法模型，可以解決一定的遮擋和背景雜波等問題。還有一些思路是想通過選擇注意力行人檢測框來解決遮擋等問題，主流的方法是局部斑塊校準匹配和顯著性加權。2018年，在原來研究成果的基礎上，受注意力神經網絡啟發，Li等人提出了注意力融合卷積神經網絡（HA-CNN）模型，用于硬區域和軟像素聯合學習，同時優化特征表示，從而達到優化圖像未對準情況的行人識別。在最近的研究中就遮擋的問題又有了新的成就。2018年Li等提出了一種新的時空注意力模型，此模型可以自動的發現行人身體的各個特殊部位。利用多個空間注意力模型提取每個圖像幀的有用部位信息，并且通過時間注意力模型整合輸出，允許從所有幀中提取可利用的部位信息，對遮擋和錯位等問題有一定的改善，并且在三大數據集上進行評估，實驗結果超過了部分先進的方法。

2.3基于姿勢分類的方法

基于姿勢的方法大多是從全局和局部特征出發來緩解姿勢變化，利用全局圖像的完整性與不同的局部部分相結合來學習特征表示，此類方法一定程度上可以解決因姿勢變化引起的行人特征形變問題。
最先提出基于姿勢的工作是Spindel Net。近期基于姿勢的行人識別方法，在該問題上也取得了階段性的成果。2017年Su等人為解決此類問題，提出了一種姿勢驅動的深度卷積（PDC）模型，此模型改進了常規的特征提取和匹配模型。首先是特征嵌入子網（FEN），實現的功能是，利用人體姿勢信息，將身體全局圖像轉換為包含規范化部分區域的圖像，再通過全局特征和不同局部特征相結合學習強大的特征表示。為了進行特征匹配還設計了特征加權子網（PWN）。實驗操作中首先是將姿勢的信息嵌入到結構化網絡當中，然后生成modified結構圖像，最后是對這個結構圖像進行識別。實驗在三個常用的數據集上得到驗證，故得出結論考慮額外姿勢線索可以提高Rank-1準確率。有研究提出Date Augment的方法，主要是通過引入存在遮擋的姿勢的樣本庫，再結合GAN生成多姿態的樣本標簽，用于輔助后期的訓練。但是訓練GAN生成的樣本數據集因辨識度不高對訓練模型幫助不大，其中還提出了一種姿態遷移的行人重識別框架來提高實驗結果。有些研究強調姿勢和嵌入,如2018年Sarfraz等就是基于姿勢和嵌入提出一種行之有效姿勢敏感嵌入（PSE）的方法。此方法結合人細致（如人的關節等）和粗略的姿勢（全局的人像）信息來學習嵌入。

2.4基于生成對抗網絡的方法

此類方法大多數是通過改進GAN 來增強數據集，從而減少因域間隙引起的模型過度擬合性問題。一般會結合上述類型的方法，一起完成識別過程。從實驗結果來看確實部分增強了數據集，但是整體的識別效率還有待提高。
在以上行人重識別工作中，利用深度學習很好地解決遮擋和不對齊等問題。但是通過對各個方法在數據集上的表現進行分析時發現，部分方法在某個數據集上表現較好，卻在另外一個數據集上訓練可能就沒有那么好的實驗結果。像這樣因為訓練數據集的改變引起的實驗效果變化，很可能是模型的過度擬合導致的。解決此類問題，可以從擴大數據集和增加數據多樣性方面著手。故2017年zheng等利用生成對抗性網絡來生成更多模擬的數據，從實驗結果來看，模型對數據集的過度依賴確實得到部分的優化，但是數據集生成的樣本存在辨識度不高和有些復雜的圖像出現了扭曲等問題，與真實圖像差距較大。針對以上問題Liu等人提出了一種姿態遷移的行人重識別框架。在傳統GAN辨別器的基礎上增加一個引導子網絡，使得網絡能夠生成更具代表性的行人重識別樣本。更近一步的研究是2018年Zhong等人提出的CamStyle，主要是利用CycleGAN和標簽平滑正則化（LSR）來改善模型在訓練中生成扭曲圖像和產生噪聲的問題，改進幅度可達到17%左右，但是對生成的數據集進行分析時發現，該論文中的方法只是學習了攝像機的風格（色調），沒有對行人的姿勢進行處理。對行人姿勢處理較好的是Zhu等人提出的姿勢轉移對抗性網絡，將給定的行人姿勢轉換成目標行人的姿勢，從而實現生成新的行人姿勢。轉換姿勢的還有Song等人的研究。傳統的GAN模型生成的模擬數據集之間仍然存在差異性，導致不同的數據集，在相同的模型上訓練出來的結果稍有偏差，也叫域間隙。2018年Wei等人也是針對域間隙的問題提出了人員轉移生成對抗性網絡，來彌補領域差距。同時還提供了一個叫做MSMT17的新數據集，此數據集增加許多重要的功能，并且提供許多較復雜的圖像。結合此數據集進行實驗，結果表明遷移生成對抗性網絡確實縮小了域間隙。

3.各種方法rank-1與mAP對比

下表中所有技術組合在Market1501數據集上進行性能比較。

上表來自 $基于深度學習的行人重識別研究進展》^{[40]}$

四、基于圖像的行人重識別常見數據集

首先解釋single-shot和multi-shot的區別。single-shot是指每個行人在每個場景中只有一幅圖像；multi-shot是指每個行人在每個場景中對應若干圖像序列。

VIPeR
公布于2007年。拍攝場景-大學校園。由2個攝像頭拍攝，包含632個行人的1264張圖片。圖片分辨率統一為128X48。single-shot。該數據集圖像分辨率較低，識別難度大。

QMUL iLIDS
公布于2009年。拍攝場景-機場大廳。由2個攝像頭拍攝，包含個119行人的476張圖片。圖片未統一分辨率。multi-shot。

GRID
公布于2009年。拍攝場景-地鐵站。由8個攝像頭拍攝，包含個1025行人的1275張圖片。圖片未統一分辨率。multi-shot。

CAVIAR4ReID
公布于2011年。拍攝場景-購物中心。由2個攝像頭拍攝，包含72個行人的1220張圖片。圖片未統一分辨率。multi-shot。

CUHK01
公布于2012年。拍攝場景-大學校園。由2個攝像頭拍攝，包含971個行人的3884張圖片。圖片分辨率統一為160X60。multi-shot。

CUHK02
公布于2013年。拍攝場景-大學校園。由10個（5對）攝像頭拍攝，包含1816個行人的7264張圖片。圖片分辨率統一為160X60。multi-shot。

CUHK03
公布于2014年。拍攝場景-大學校園。由10個（5對）攝像頭拍攝，包含1467個行人的13164張圖片。圖片未統一分辨率。multi-shot。

RAiD
公布于2014年。拍攝場景-公共大廳。由4個攝像頭（2室內2室外）拍攝，包含43個行人的6920張圖片。圖片分辨率統一為128X64。multi-shot。

Market-1501
公布于年。拍攝場景-大學校園。由6個攝像頭拍攝，包含1501個行人的32217張圖片。圖片分辨率統一為128X64。multi-shot。

五、參考文獻

[1] 宋婉茹, 趙晴晴, 陳昌紅, 等. 行人重識別研究綜述[J]. 智能系統學報, 2017, 12(06): 770-780.
[2] 張化祥, 劉麗. 行人重識別研究綜述[J]. 山東師范大學學報, 2018, 33(04): 379-387.
[3] S. Liao,Y. Hu, Xiangyu Zhu and S. Z. Li, Person re-identification by Local Maximal Occurrence representation and metric learning[C]. CVPR, 2015: 2197-2206.
[4] MA B, SU Y, JURIE F. Local descriptors encoded by fisher vectors for person re-identification[C]. ICCV, 2012: 413–422.
[5] CHEN D, YUAN Z, HUA G, 等. Similarity learning on an explicit polynomial kernel feature map for person re-identification[C]. CVPR, 2015: 1565–1573.
[6] GOU M, ZHANG X, RATES-BORRAS A, 等. Person re-identification in appearance impaired scenarios[C]. British Machine Vision Conference, 2016: 1–48.
[7] KARANAM S, LI Y, RADKE R J. Person re-identification with discriminatively trained viewpoint invariant dictionaries[C]. ICCV, 2015: 4516–4524.
[8] SUGIYAMA. Local fisher discriminant analysis for supervised dimensionality reduction[J]. Machine learning, 2010, 78(1/2): 35-61.
[9] MATSUKAWA T, OKABE T, SUZUKI E, 等. Hierarchical gaussian descriptor for person re-identification[C]. CVPR, 2016: 1363–1372.
[10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems, 2012: 1097–1105.
[11] MCLAUGHLIN N, RINCON J M, MILLER P. Recurrent Convolutional Network for Video-based Person Re-Identification[C]. CVPR, 2012: 51–58.
[12] XIAO T, LI H, OUYANG W, 等. Learning deep feature representations with domain guided dropout for person re-identification[C]. CVPR, 2016: 1249–1258.
[13] WEINBERGER K Q, SAUL K L. Distance metric learning for large margin nearest neighbor classification[J]. Journal of machine learning research, 2009, 10(1): 207–244.
[14] DIKMEN M, AKBAS E, HUANG T S, 等. Pedestrian recognition with a learned metric[J]. Lecture notes in computer science, 2010,6495: 501-512.
[15] GUILLAUMIN M, VERBEEK J, SCHMID C. Is that you? Metric learning approaches for face identification[C]. ICCV, 2009: 498–505.
[16] ZHENG W, GONG S, XIANG T. Person re-identification by probabilistic relative distance comparison[C]. CVPR, 2011: 649–656.
[17] ZHENG W S, GONG S, XIANG T. Re-identification by relative distance comparison[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(3): 653.
[18] YI D, LEI Z, LI S Z. Deep metric learning for practical person re-identification[C]. CVPR, 2014: 34–39.
[19] LIU H, MA B, QIN L, 等. Set-label modeling and deep metric learning on person re-identification[J]. Neurocomputing, 2015(151): 1283–1292.
[20] LI W, ZHAO R, XIAO T, 等. Deepreid: Deep filter pairing neural network for person re-identification[C]. CVPR, 2014: 152–159.
[21] DING S, LIN L, WANG G, 等. Deep feature learning with relative distance comparison for person re-identification[J]. Pattern recognition, 2015, 48(10): 2993-3003.
[22] PEDAGADI S, ORWELL J, VELASTIN S, 等. Local fisher discriminant analysis for pedestrian re-identification[C]. CVPR, 2013: 3318–3325.
[23] KOESTINGER M, HIRZER M, WOHLHART P, 等. Large scale metric learning from equivalence constraint[C].CVPR , 2012: 2288–2295.
[24] ENGEL C, BAUMGARTNE P, HOLZMANN M, 等. Person re-identification by support vector ranking[C]. British Machine Vision Conference, 2010: 1–11.
[25] SCOVANNER P, ALI S, SHAH M. A 3-dimensional sift descriptor and its application to action recognition[C]. 15th ACM International Conference on Multimedia, 2007: 357–360.
[28] BEDAGKAR-GALA A, SHAH S K. Gait-assisted person re-identification in wide area surveillance[C]. Asian Conference on Computer Vision, 2014: 633–649.
[29] SIMONNET D, LEWANDOWSKI M, VELASTIN S.A, 等. Re-identification of pedestrians in crowds using dynamic time warping[C]. ICCV, 2012: 423–432.
[30] MAN J,BHANU B. Individual recognition using gait energy image[J]. IEEE transactions on pattern analysis and machine intelligence, 2006, 28(2): 316–322.
[31] WANG T, GONG S G, ZHU X, 等. Person re-identification by video ranking[C]. European Conference on Computer Vision, 2014: 688–703.
[32] KLASER A, MARSZALEK M, SCHMID C. A spatiotemporal descriptor based on 3D-gradients[C]. British Machine Vision Conference, British, 2008: 152–159.
[34] YOU J, WU A, LI X, 等. Top-push video-based person re-identification[C]. CVPR, 2016: 1345–1353.
[35] YAN Y, NI B, SONG Z, 等. Person Re-identification via recurrent feature aggregation[C]. European Conference on Computer Vision. Springer International Publishing, 2016: 701–716.
[36] ZHOU Z,HUANG Y, WANG W, 等. See the forest for the trees: joint spatial and temporal recurrent neural networks in video-based person re-identification[C]. CVPR, 2017: 143–147.
[37] LIU H, JIE Z, JAYASHREE K, 等. Video-based person re-identification with accumulative motion context[J]. IEEE transactions on circuits and systems for video technology, 2017(99): 23–29.
[38] Zhang X , Luo H , Fan X , 等. AlignedReID: Surpassing Human-Level Performance in Person
Re-Identification[J]. 2017.
[39] WEI L, ZHANG S, GAO W, 等. Person transfer GAN to bridge domain gap for person re-identification[C]. CVPR, 2018: 79-88.
[40] 羅浩, 姜偉, 范星, 張思朋. 基于深度學習的行人重識別研究進展. 自動化學報, 2019, 45(11): 2032-2049

總結

以上是生活随笔為你收集整理的行人重识别(3)——行人重识别（基于图像）综述的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：洛谷题库P5735距离函数C语言,扩展有
下一篇：使用Golang开发手游服务器的感想