Asymmetric Co-Teaching for Unsupervised Cross-Domain Person Re-Identification简单翻译理解
Asymmetric Co-Teaching for Unsupervised Cross-Domain Person Re-Identification簡單翻譯理解
- Abstract
- Introduction
- Related Work
- The Proposed Method
Abstract
行人重識別(Re-ID)是一項具有挑戰(zhàn)性的任務(wù),由于身份樣本和成像條件的高差異。盡管最近隨著在深度學(xué)習(xí)方面的進(jìn)步已經(jīng)在固定場景中取得了顯著的準(zhǔn)確性,但是對于不可見的目標(biāo)域,很少有作品能很好地推廣。一種常用的解決方法是通過聚類給未標(biāo)記的目標(biāo)圖像配上偽標(biāo)簽,然后對模型進(jìn)行再訓(xùn)練。然而,聚類方法往往會引入有噪聲的標(biāo)簽,丟棄作為離群值的低置信值樣本,這可能會阻礙再訓(xùn)練過程,從而限制泛化能力。在本研究中,作者認(rèn)為通過在聚類后明確地加入樣本過濾程序,可以更有效地使用挖掘的樣本。為此設(shè)計了一個非對稱協(xié)同教學(xué)框架,該框架通過協(xié)同兩個模型為對方選擇可能具有干凈標(biāo)簽的數(shù)據(jù)來抵抗標(biāo)簽噪聲。同時,一個模型接收盡可能純的樣本,而另一個模型接收盡可能多樣化的樣本。這個過程鼓勵選擇的訓(xùn)練樣本既干凈又雜,并且這兩個模型可以迭代地相互促進(jìn)。大量的實驗表明,所提出的框架可以一致地受益于大多數(shù)基于聚類的方法,并提高了最新的自適應(yīng)精度。
Introduction
行人重識別的目標(biāo)是通過給定的探測圖像在監(jiān)控視頻中定位目標(biāo)人物。隨著深度學(xué)習(xí)模型的快速發(fā)展,公共數(shù)據(jù)集中的person re-ID的準(zhǔn)確性大大提高。然而,在源域上訓(xùn)練的模型經(jīng)常會受到域轉(zhuǎn)移的影響,從而導(dǎo)致在不同的目標(biāo)域上性能下降。
為了緩解這一問題,近期的作品主要域自適應(yīng)(UDA)是將知識從有標(biāo)記的源域轉(zhuǎn)移到無標(biāo)記的目標(biāo)域。這些工作主要有兩個方面,分配對齊和目標(biāo)偽標(biāo)簽發(fā)現(xiàn)等。前者旨在減小共同空間中域之間的分布差距,如圖像級和屬性水平。后者試圖利用目標(biāo)樣本之間的潛在關(guān)系,預(yù)測偽標(biāo)簽用于模型再訓(xùn)練,如基于聚類分配偽標(biāo)簽。其中,基于聚類的方法報道了非常具有競爭性的準(zhǔn)確性。這些方法通常采用一種迭代過程,根據(jù)聚類預(yù)測未標(biāo)記目標(biāo)樣本的偽身份,并利用這些預(yù)測樣本對模型進(jìn)行微調(diào)。盡管基于聚類的方法取得了良好的效果,但主要存在兩個缺點。一方面,即使使用現(xiàn)代的聚類方法,也不能保證聚類的準(zhǔn)確性,從而使聚類分配的偽標(biāo)簽存在噪聲。用帶有噪聲的標(biāo)簽的模型訓(xùn)練錯誤的身份,無疑會損害識別性能。另一方面,大多數(shù)聚類方法傾向于將低置信值樣本作為離群值,不給它們分配聚類標(biāo)簽,如DBSCAN。這些異常值通常是遇到高圖像變化的硬樣本。如果在訓(xùn)練時不考慮這些樣本,模型可能會在識別高變異檢驗樣本時出現(xiàn)問題。但是,直接將它們分配到最近的聚類中會帶來更多的噪聲標(biāo)簽,阻礙模型的再訓(xùn)練。
協(xié)同教學(xué)(CT)是一種常用的帶噪標(biāo)簽的訓(xùn)練模型算法,它通過將一個網(wǎng)絡(luò)損失較小的樣本喂給另一個網(wǎng)絡(luò)來學(xué)習(xí)兩個網(wǎng)絡(luò)。然而,大多數(shù)的協(xié)同教學(xué)框架利用了兩個網(wǎng)絡(luò)的對稱輸入,這不能有效地應(yīng)用于基于聚類的跨域行人重識別。這是因為置信度低的訓(xùn)練樣本在訓(xùn)練過程中損失較大。由于使用對稱輸入,模型總是選擇簡單的樣本,而忽略了小批量訓(xùn)練中的低置信樣本。因此,上述第二個缺點仍然存在,將導(dǎo)致reID模型達(dá)到局部最小值。
圖1:提出的非對稱協(xié)同教學(xué)框架(ACT)?!癕”和“C”分別表示主模型和協(xié)作模型。首先對源標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,然后對聚類預(yù)測的偽標(biāo)簽?zāi)繕?biāo)數(shù)據(jù)進(jìn)行微調(diào),得到“M”和“C”的初始權(quán)值?!癕”接收來自inliers和outliers盡可能不同的樣本,而“C”在ACT期間從inliers接受盡可能純凈的樣本。這一過程促使兩種模式相互促進(jìn)彼此的辨別能力。
首先選擇最先進(jìn)的基于聚類的方法作為基準(zhǔn),并提出了一種非對稱協(xié)同教學(xué)框架,以消除上述兩個缺點帶來的負(fù)面影響。具體來說,我們首先根據(jù)聚類結(jié)果將目標(biāo)樣本分為內(nèi)群點和離群點(如圖1所示)。在本文中,我們將聚類方法識別的低置信樣本視為離群點,其余為內(nèi)群點。然后,用兩個模型訓(xùn)練我們的框架。第一種是主要模型,目的是從內(nèi)群層點中推斷出損失較小的樣本;第二種是協(xié)作者模型,目的是從離群值中估計損失較小的樣本。選取由某一模型推斷/估計的樣本進(jìn)行另一模型的訓(xùn)練。這個訓(xùn)練過程與傳統(tǒng)的協(xié)同教學(xué)相似,除了兩個模型的輸入是不對稱的,即兩個模型的訓(xùn)練數(shù)據(jù)來自兩個不同的數(shù)據(jù)流。這樣,選擇損失較小的樣本,就可以保證用盡可能干凈的數(shù)據(jù)訓(xùn)練模型。此外,這兩個模型是相互迭代推進(jìn)的。一方面,主模型試圖從內(nèi)群點中挖掘盡可能純粹的樣本,以維護(hù)協(xié)作者模型的基本表示。另一方面,合作者模型試圖從離群值中選擇盡可能多樣化的樣本,以進(jìn)一步提高主模型的識別能力。我們的貢獻(xiàn)概括為三個方面:
介紹了在跨域人識別中采用協(xié)同教學(xué)技術(shù)來抵抗聚類產(chǎn)生的帶噪標(biāo)簽。實驗表明,使用過濾后的數(shù)據(jù)進(jìn)行學(xué)習(xí)可以持續(xù)提高自適應(yīng)精度。
我們將未標(biāo)記的目標(biāo)數(shù)據(jù)劃分為inliers和outliers,并設(shè)計了一個非對稱協(xié)同教學(xué)(ACT)框架,使reid模型在適應(yīng)的早期階段看到困難的樣本。實驗表明,非對稱方法在處理硬樣本時比對稱方法更有效。
在三個大規(guī)模數(shù)據(jù)集上的實驗表明,我們的方法可以應(yīng)用于各種基于聚類的方法,并在person re-ID中產(chǎn)生最先進(jìn)的自適應(yīng)精度。
Related Work
最近關(guān)于跨域re-ID的研究主要可以歸結(jié)為分布對齊和基于聚類的改編。分布對齊試圖縮小公共空間的分布差距,這可以進(jìn)一步概括為圖象層和屬性層。對于圖像級適應(yīng)方法,PT-GAN使用cycleo -gan或Star-GAN將已標(biāo)記源圖像的前景轉(zhuǎn)換為目標(biāo)相機(jī)風(fēng)格進(jìn)行適應(yīng)。類似地,SPGAN利用了Cycle-GAN和名為“自相似性”和“域不同”的附加約束來提高精確度。但是,由于生成的圖像與真實圖像相比還有很大的差距,圖像級自適應(yīng)算法不能保證生成的圖像的身份。對于屬性級自適應(yīng)方法,MMFA試圖通過最小化平均最大差異(mean maximum difference, MMD)來對齊不同數(shù)據(jù)集之間中層語義屬性的分布。TJ-AIDL利用多分支網(wǎng)絡(luò),建立了對目標(biāo)域最優(yōu)的識別和屬性敏感的特征表示空間。這些工作需要對源數(shù)據(jù)進(jìn)行屬性標(biāo)注,在實際操作中很難獲得。
基于聚類的適應(yīng)是適應(yīng)reid模型的另一種直接的方法。Fan等人使用k-means預(yù)測未標(biāo)記目標(biāo)數(shù)據(jù)的偽標(biāo)簽,用于模型微調(diào)。然而,在聚類中很難確定正確的k值。Song et al.提出了一種基于dbscan的自適應(yīng)方法,該方法可以根據(jù)特征的密度來發(fā)現(xiàn)簇的數(shù)量。基于聚類的方法雖然可以獲得較高的領(lǐng)域適應(yīng)reid精度,但大多數(shù)方法忽略了聚類結(jié)果中標(biāo)注錯誤的樣本,直接使用它們進(jìn)行訓(xùn)練,這對模型的性能產(chǎn)生了負(fù)面影響。
最近關(guān)于跨域re-ID的研究主要可以歸結(jié)為分布對齊和基于聚類的改編。分布對齊試圖縮小公共空間的分布差距,這可以進(jìn)一步概括為圖象層和屬性層。對于圖像級適應(yīng)方法,PT-GAN使用cycleo-gan或Star-GAN將已標(biāo)記源圖像的前景轉(zhuǎn)換為目標(biāo)相機(jī)風(fēng)格進(jìn)行適應(yīng)。類似地,SPGAN利用了Cycle-GAN和名為“自相似性”和“域不同”的附加約束來提高精確度。但是,由于生成的圖像與真實圖像相比還有很大的差距,圖像級自適應(yīng)算法不能保證生成的圖像的身份。對于屬性級自適應(yīng)方法,MMFA試圖通過最小化平均最大差異(mean maximum difference, MMD)來對齊不同數(shù)據(jù)集之間中層語義屬性的分布。TJ-AIDL利用多分支網(wǎng)絡(luò),建立了對目標(biāo)域最優(yōu)的識別和屬性敏感的特征表示空間。這些工作需要對源數(shù)據(jù)進(jìn)行屬性標(biāo)注,在實際操作中很難獲得。
基于聚類的適應(yīng)是適應(yīng)reid模型的另一種直接的方法。Fan等人使用k-means預(yù)測未標(biāo)記目標(biāo)數(shù)據(jù)的偽標(biāo)簽,用于模型微調(diào)。然而,在聚類中很難確定正確的k值。Song et al.提出了一種基于dbscan的自適應(yīng)方法,該方法可以根據(jù)特征的密度來發(fā)現(xiàn)簇的數(shù)量?;诰垲惖姆椒m然可以獲得較高的領(lǐng)域適應(yīng)reid精度,但大多數(shù)方法忽略了聚類結(jié)果中標(biāo)注錯誤的樣本,直接使用它們進(jìn)行訓(xùn)練,這對模型的性能產(chǎn)生了負(fù)面影響。
The Proposed Method
設(shè)T為無標(biāo)記目標(biāo)訓(xùn)練集,S為有標(biāo)記源訓(xùn)練集。無監(jiān)督域自適應(yīng)試圖同時利用T和S來學(xué)習(xí)一個能很好地推廣到目標(biāo)測試集的reid模型。
提出的ACT就是為了解決這個問題,它包括三個階段:(1)源模型訓(xùn)練。(2)Clustering-based適應(yīng)。(3)適應(yīng)的非對稱協(xié)同教學(xué)。前兩個階段的目標(biāo)是通過對帶標(biāo)記的源數(shù)據(jù)進(jìn)行初始化,利用聚類生成的偽標(biāo)簽對目標(biāo)數(shù)據(jù)進(jìn)行微調(diào),得到具有基本判別能力的模型。第三階段通過第二階段自適應(yīng)模型初始化的兩個模型相互協(xié)作來應(yīng)對噪聲標(biāo)簽。在第三階段,我們首先根據(jù)聚類結(jié)果將目標(biāo)訓(xùn)練集分割為inliers和outliers,然后用 /對小損失樣本從/訓(xùn)練模型/ 。算法1說明了該方法的總體過程。接下來,我們將詳細(xì)描述所提出的方法。
Source Model Training
在我們的方法的第一階段,我們訓(xùn)練源模型用標(biāo)記的源數(shù)據(jù)集S,通過crossentropy loss和triplet loss?;谠磾?shù)據(jù)的訓(xùn)練模型具有基本的適應(yīng)區(qū)分能力。
Clustering-based Adaptation
由于源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集之間的域轉(zhuǎn)移,所得到的源數(shù)據(jù)集模型通常不能很好地推廣到新的數(shù)據(jù)集上。為了解決這一問題,我們遵循一個強(qiáng)健可靠的適應(yīng)框架。采用Msrc(source model)提取目標(biāo)圖像的pool -5特征,并根據(jù)DBSCAN的聚類結(jié)果將T劃分為inliers Ti和outliers To。進(jìn)一步的培訓(xùn)可以根據(jù)注釋的inliers Ti進(jìn)行。通過引入聚類距離度量和損失函數(shù),給出了自適應(yīng)算法。
Distance metric for clustering.聚類的距離度量,選擇k–reciprocal編碼和Jaccard距離作為聚類的距離度量。其中,我們首先通過以下方法計算成對相似度矩陣M:
其中是樣本i和j之間通過使用pool -5特征的相似性,R?(i, k)是樣本i的改進(jìn)的k-reciprocal集,它是通過添加一些具體的可靠約束得到的。得到相似度矩陣M后,Jaccard距離 (i, j)可計算由:
其中Ntis是目標(biāo)訓(xùn)練數(shù)據(jù)集的總圖像數(shù)。為了提高相似度,每個目標(biāo)特征應(yīng)該接近一些源特征,即。最小化:其中Ns(xi)是目標(biāo)圖像i在源域內(nèi)的最近鄰居,考慮dJ和dw,最終的聚類距離度量為:
其中,λ∈[0,1]為平衡因子,本研究中我們將其設(shè)為0.1。
Loss function.給定計算出的距離矩陣M,對未標(biāo)記的目標(biāo)數(shù)據(jù)集T執(zhí)行DBSCAN,并將其劃分為inliers Ti和outliers To。Ti中的每個示例被分配到一個集群。因此,我們可以使用tir的偽標(biāo)簽對Msrc進(jìn)行微調(diào),并根據(jù)優(yōu)化后的msrcr迭代更新聚類結(jié)果。在Msrc的微調(diào)中,我們只使用了triplet loss。通過使用pool -5和fc-2048特征計算每個批次數(shù)據(jù)的三重?fù)p失:
其中Nb為訓(xùn)練批大小,p和n是錨點圖像a中最不相似的正樣本和最相似的負(fù)樣本。xp, xn和xa表示對應(yīng)的正樣本、負(fù)樣本和錨點樣本的特征。經(jīng)過自適應(yīng),得到了一個更好的re-ID模型Mada。但是,如第1節(jié)所述,由于源和目標(biāo)域分布不一致,模型提取的特征對于下游的聚類任務(wù)并不足夠可靠。因此,聚類結(jié)果可能會包含很多有噪聲的標(biāo)簽。
Asymmetric Co-Teaching for Adaptation.最初的聯(lián)合教學(xué)部署了兩個網(wǎng)絡(luò)來尋找可能干凈的標(biāo)簽,即,噪聲數(shù)據(jù)集中樣本損失小的。通過將一個網(wǎng)絡(luò)挖掘的樣本發(fā)送到另一個網(wǎng)絡(luò)進(jìn)行優(yōu)化,可以大大降低標(biāo)簽錯誤的影響。然而,協(xié)同教學(xué)并不能有效地應(yīng)用于跨領(lǐng)域的reid教學(xué)。一方面,選取的小損失樣本易于模型學(xué)習(xí),對提高re-ID精度的積極作用有限。另一方面,在協(xié)同教學(xué)過程中難以考慮到損失值高的硬樣本,這可能限制了適應(yīng)訓(xùn)練樣本的多樣性??傊?#xff0c;傳統(tǒng)的協(xié)同教學(xué)容易使reid模型收斂到局部最小值,不利于網(wǎng)絡(luò)魯棒性的培養(yǎng)。
為了解決上述問題,我們在第三階段提出了一種新的無監(jiān)督跨域reid的類似協(xié)同教學(xué)的框架。在該框架中,我們利用已有的Mada初始化了主模型mmainator和合作者模型mcoator。Mmainand Mcoare隨后接受了不對稱的訓(xùn)練。mcotry從離群值中推斷出純數(shù)據(jù)用于Mmain的培訓(xùn),這鼓勵Mmain使用更可靠但多樣化的樣本進(jìn)行培訓(xùn)。mmain專注于從inliers中挖掘盡可能干凈的樣本進(jìn)行Mco的訓(xùn)練,確保Mcocan在保持基本表示的同時易于樣本聚類。
總結(jié)
以上是生活随笔為你收集整理的Asymmetric Co-Teaching for Unsupervised Cross-Domain Person Re-Identification简单翻译理解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 干洗店收银系统应具备的功能
- 下一篇: webupload大文件上传的坑