當前位置：首頁 >

综述2 | 基于深度学习的行人重识别

發布時間：2023/12/8 70 豆豆

生活随笔收集整理的這篇文章主要介紹了综述2 | 基于深度学习的行人重识别小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

- 1. 概念
- 2. 有監督學習
- - 2.1 基于圖像的有監督學習
  - 2.2 基于視頻的有監督學習
- 3. 半監督學習
- 4. 弱監督學習
- 5. 無監督學習
- 6. 生成對抗網絡
- 7. 注意力機制
- 8. 評價指標
- 9. 損失函數
- 10. 未來研究方向

1. 概念

行人重識別深度學習模型相關研究主要聚焦于如何提取更具判別性的特征表示。

2. 有監督學習

有監督學習能充分利用標注數據，提取有較強判別能力的特征表示，因而能在行人重識別問題中取得較高的準確率。

2.1 基于圖像的有監督學習

基于圖像的行人重識別研究，圖像特征提取方式可分為全局特征提取和局部特征提取兩大類。
全局特征提取：一般做法是將完整圖像輸入卷積神經網絡( convolutional neural network，CNN) 進行提取，在目標遮擋時使用全局特征提取難以取得理想效果。
局部特征提取：是指提取目標圖像中更為重要的局部區域特征。傳統低級視覺特征提取方法主要提取圖像邊緣信息，基于深度學習的局部特征提取方法則包括行人圖像分割、基于姿態提取局部特征等。

2.2 基于視頻的有監督學習

視頻數據的優點: ① 圖像序列可以捕捉與行人運動相關的時序信息( 步態、形體變化規律等) ; ② 圖像序列中豐富的視角信息允許建立更好的人物外觀模型，而且大量樣本會使模型訓練更容易。當然也面臨其他一些挑戰，如在可變長度或不同幀速率的圖像序列上，如何構建時序模型、如何進行特征聚合。
充分利用圖像序列的時序信息：循環特征聚合網絡、門控循環網絡、雙向循環神經網絡等。
圖像序列特征聚合：池化是一種常用的圖像序列特征聚合方法，具體做法是從視頻圖像序列每一幀中提取一個特征向量，然后對所有幀中提取的特征向量進行池化操作。

3. 半監督學習

概念：半監督學習( semi-supervised learning，SSL) 是監督學習與無監督學習相結合的一種學習方法，旨在利用少量標注數據提取有效特征，以獲得與有監督模型接近甚至相同的結果。
問題：如何通過少量標注的行人圖像提取有判別性的特征表示，并為大量未標注數據打上準確的偽標簽以進一步優化模型的特征提取，是半監督學習目前要解決的問題。
補充：對未標注數據進行有效采樣的方法尤為重要，常用的半監督學習方法有字典學習、協同訓練等。

4. 弱監督學習

概念：弱監督學習( weakly supervised learning) 是一個總括性的術語，Zhou將弱監督學習分為不完整、不確切和不準確三種。利用弱監督學習減輕數據標注代價，同時提高模型泛化能力。
特點：不同于半監督學習與監督學習模型常用的圖像級標簽，弱監督通常采用包級標簽，即對給定的多個小的圖像集作標注，且標注信息不需要十分精準，即通常說的弱標注。與完全標注數據相比，弱標注數據會缺乏每個人的詳細特征，但它提供了行人之間的特征依賴性，因而有助于解決跨攝像頭的行人重識別任務。

5. 無監督學習

概念：無監督學習( unsupervised learning)主要通過學習未標注樣本來解決行人重識別問題。由于缺失標注信息，此類模型在學習行人特征表示時面臨更大挑戰。
遷移學習( transfer learning) 也是一種常用的無監督學習方法，具體做法是將基于其他數據集訓練的模型遷移至缺少標簽信息的目標數據集，以解決行人重識別問題。

6. 生成對抗網絡

概念：生成對抗網絡( generative adversarial network，GAN) 可以通過生成器與判別器間的博弈產生較為真實的樣本，擴充訓練數據集，因而能有效解決行人重識別面臨的樣本數量不足問題。
特點：行人重識別首先要解決在低分辨率圖像中獲取有效行人特征表示這一難題。Wang 等人將此類任務命名為尺度自適應低分辨率行人重識別( SALＲ-ＲEID) 并提出了級聯超分辨率生成對抗網絡( CSＲ-GAN) ，將各種低分辨率行人圖像有效轉變為統一的高分辨率圖像。

7. 注意力機制

概念：注意力機制的本質是模仿人類視覺信號處理機制，即選擇性地觀察一部分，同時忽略其他可見信息。
分類：針對行人重識別問題，根據關注重點的不同，可以將注意力機制分為時間注意力機制與空間注意力機制兩種。時間注意力機制主要關注輸入圖像序列的哪幅圖像更重要，而空間注意力機制則主要關注某幅具體圖像中哪部分更關鍵，可以獲得更有區分力的特征信息。
特點：從本質上講，時間注意力機制更適用于基于視頻的行人重識別問題。Li 等人提出了一種時空注意力模型，使用多個空間注意力模型和多樣化的正則項來確保各個空間注意力模型學習身體的不同部分，在此基礎上通過時間注意力模型將序列中的圖像特征進行融合，很好地解決了視頻序列中行人遮擋以及未對齊等問題。

8. 評價指標

行人重識別任務常用的評價指標包括：累計匹配曲線(CMC) 和平均精度均值( MAP) 等。

CMC反映了分類識別模型的綜合性能，CMC 中橫坐標的 rank 表示的是正確率。rank1指的是輸入一個query，檢測結果第一張結果正確。CMC就是rank1，rank2，rank3…的折線圖。

MAP是多標簽圖像分類問題中常用的評價指標，P 是精確率，指的是所預測的正類樣本中有多少是真的正類;

AP 指的是對給定查詢實例，模型所預測的正例 top1 ～ top10 中 P 值的平均值，AP只計算所有返回的判斷正確的圖像，AP=該圖像在所有正確圖像的排序 / 該圖像在所有返回圖像中的排序，求和，除以返回正確的圖像的個數;
MAP 是對所有類別 AP 值的平均值。
AP 衡量的是模型在每個類別上的性能好壞，MAP 衡量的是模型在所有類別的平均性能，其值均以百分比形式呈現，越接近 100% ，表示重識別效果越好。

9. 損失函數

通常是分類損失+ Triplet loss（目標其實就是為了讓特征提取的更好）
Triplet loss需要準備3份數據，其中Anchor代表當前人的圖像數據，Positive代表該人的另一張圖像數據，Negative代表其他人的一個圖像數據。我們希望A和P相似性比較近，A和N相似性比較遠。
Triplet loss: L(A,P,N) = max(||f(A)-f( P)|| - ||f(A)-f(N)|| + a, 0)。只有前面的式子大于0才進行學習。其中，a叫做margin，間隔，表示AP之間要比AN之間最少相差多少。
實際應用中，最多的是hard negative方法，選擇樣本的時候讓AP約等于AN（P選最不像的，N選最像的），給網絡一些挑戰。

10. 未來研究方向

特征表達能力的提升。提高行人重識別性能的核心依然是提取更加有效的特征表示。① 由全局特征提取到局部特征提取的轉變對模型的提升作用非常明顯，因此如何高效地提取有效的局部特征表示仍然是今后的研究熱點；② 可以利用時序等附加語義信息來構建更加細節的特征表示。③ 構建數量更大、質量更好的數據集，幫助模型提取更加有效的特征表示也是可行的，GAN 的存在也為解決行人重識別面臨的數據集規模不夠以及圖像分辨率不高等問題提供了新思路。

半監督、弱監督學習模型。未來基于半監督學習的模型應致力于如何有效利用更少的標注數據與龐大的未標注數據來獲得更有效的行人特征表示；弱監督學習減輕了數據集標注代價，但需要模型從較為模糊的標簽信息中對行人進行有效分類。弱標注數據中包含了行人間隱含的關聯信息，因此提取圖像特征聯合挖掘人際關系也可以更加高效地解決行人重識別問題。

無監督行人重識別模型。無監督學習模型無須標注數據，模型不知道如何學習判別性的特征表示。如何為行人圖像尋找一個有效的特征映射空間是無監督學習模型重點關注的研究方向。遷移學習為無監督學習提供了一個好的思路，現階段遷移學習模型還難以適應目標域中的不同場景，克服場景變換導致的領域適應問題是有價值的研究方向。

行人檢測與行人重識別結合。單獨的行人重識別模型并不能滿足應用需求，因此結合行人檢測與行人重識別具有很大的現實意義與研究價值。
?
?
?

參考鏈接：https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFDLAST2020&filename=JSYJ202011004&v=Dhm5rO5ZeYh4WIAcLlVGEbIzhqpnosJJLnGBMsz%25mmd2Btwfddd94lN9bjRpJFWfOANg5

總結

以上是生活随笔為你收集整理的综述2 | 基于深度学习的行人重识别的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。