日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

RelationTrack解读

發(fā)布時(shí)間:2024/4/11 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 RelationTrack解读 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

MOT領(lǐng)域的一個(gè)新的SOTA方法,在FairMOT的基礎(chǔ)上提出了特征圖解耦和全局信息下的ReID Embedding的學(xué)習(xí),前者和CSTrack思路類(lèi)似,后者則采用了Deformable DETR里的deformable attention配合Transformer Encoder來(lái)捕獲和目標(biāo)相關(guān)的全圖信息增強(qiáng)ReID的表示能力。

簡(jiǎn)介

現(xiàn)有的多目標(biāo)跟蹤方法為了速度通常會(huì)將檢測(cè)和ReID任務(wù)統(tǒng)一為一個(gè)網(wǎng)絡(luò)來(lái)完成,然而這兩個(gè)任務(wù)需要的是不同的特征,這也是之前很多方法提到的任務(wù)沖突問(wèn)題。為了緩解這個(gè)問(wèn)題,論文作者設(shè)計(jì)了Global Context Disentangling(GCD)模塊來(lái)對(duì)骨干網(wǎng)絡(luò)提取到的特征解耦為任務(wù)指定的特征。此外,作者還發(fā)現(xiàn),此前的方法在使用ReID特征為主的關(guān)聯(lián)中,只考慮了檢測(cè)框的局部信息而忽視了全局語(yǔ)義相關(guān)性的考慮。對(duì)此,作者設(shè)計(jì)了Guided Transformer Encoder(GTE)模塊來(lái)學(xué)習(xí)更好的全局感知的ReID特征,這個(gè)模塊不是密集相關(guān)性的而是捕獲query節(jié)點(diǎn)和少量的自適應(yīng)關(guān)鍵樣本位置之間的相關(guān)性信息。因此非常高效。實(shí)驗(yàn)表明,由GCD和GTE構(gòu)成的跟蹤框架RelationTrack在MOT16和MOT17上均達(dá)到SOTA表現(xiàn),在MOT20上更是超過(guò)此前的所有方法。

  • 論文標(biāo)題

    RelationTrack: Relation-aware Multiple Object Tracking with Decoupled Representation

  • 論文地址

    http://arxiv.org/abs/2105.04322

  • 論文源碼

    暫未開(kāi)源

介紹

目前主流的多目標(biāo)跟蹤方法主要包含兩個(gè)子模型,即用于目標(biāo)定位的檢測(cè)模型和用于軌跡連接的ReID模型。分開(kāi)訓(xùn)練檢測(cè)和ReID兩個(gè)模型可以在精度上獲得較好的表現(xiàn),然而推理速度較慢,很難達(dá)到實(shí)時(shí)跟蹤的效果。一個(gè)較好的解決方案就是JDE首先提出的在一個(gè)網(wǎng)絡(luò)中聯(lián)合訓(xùn)練檢測(cè)和ReID的思路。

遺憾的是,直接將這兩個(gè)任務(wù)放到一個(gè)網(wǎng)絡(luò)中聯(lián)合優(yōu)化造成了精度大幅度的下降,這是因?yàn)檫@兩個(gè)任務(wù)存在嚴(yán)重的優(yōu)化矛盾。對(duì)檢測(cè)分支而言,它期望同類(lèi)目標(biāo)之間的相似度盡量高,也就是網(wǎng)絡(luò)能夠最大化不同類(lèi)目標(biāo)之間的距離;但是,對(duì)ReID分支而言,它則希望最大化不同實(shí)例之間的距離(對(duì)行人跟蹤而言這些不同實(shí)例是同類(lèi)別的)。它們不一致的優(yōu)化目標(biāo)阻礙了當(dāng)前的MOT框架向更高效的形式發(fā)展。

為了緩解這個(gè)矛盾,作者設(shè)計(jì)了一個(gè)特征解耦模塊稱(chēng)為Global Context Disentangling (GCD),它將特征圖解耦為檢測(cè)任務(wù)指定和ReID任務(wù)指定的特征表示,如上圖所示。這個(gè)模塊的設(shè)計(jì)下文再闡述,不過(guò)經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,這個(gè)模塊帶來(lái)了1-2個(gè)點(diǎn)的收益,可見(jiàn)它對(duì)解決任務(wù)沖突是很有效的

此外,作者發(fā)現(xiàn),此前的方法通常利用局部信息來(lái)跟蹤目標(biāo),然而,實(shí)際上,目標(biāo)和周?chē)繕?biāo)以及背景之間的關(guān)系對(duì)于跟蹤任務(wù)是非常重要的。為了捕獲這種長(zhǎng)程依賴(lài),使用全局注意力是一個(gè)解決方案,但是全局注意力需要逐像素之間計(jì)算相關(guān)性以構(gòu)成注意力圖,這在計(jì)算上是代價(jià)極為昂貴的,也嚴(yán)重阻礙了實(shí)時(shí)MOT任務(wù)的進(jìn)行。作者又發(fā)現(xiàn),其實(shí)并不是所有的像素都對(duì)query node(查詢(xún)節(jié)點(diǎn))有影響的,因此只需要考慮和少數(shù)關(guān)鍵樣本之間的關(guān)系可能是更好的選擇,基于這個(gè)假設(shè),作者使用deformable attention(源于Defomable DETR)來(lái)捕獲上下文關(guān)系。相比于全局注意力,deformable attention是非常輕量的,計(jì)算復(fù)雜度從O(n2)O\left(n^{2}\right)O(n2)降低到了O(n)O\left(n\right)O(n)。而且,相比于基于圖的受限鄰域信息收集,deformable attention可以自適應(yīng)選擇整個(gè)圖像上合適的關(guān)鍵樣本來(lái)計(jì)算相關(guān)性。

接著,考慮到Transformer強(qiáng)大的建模能力,作者將deformable attention和Transformer Encoder進(jìn)行了組合形成了Guided Transformer Encoder (GTE)模塊,它使得MOT任務(wù)可以在全局感受野范圍內(nèi)捕獲逐像素的相關(guān)性。

為了證明RelationTrack的效果,作者在MOT多個(gè)benchmark數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),在IDF1上超越了此前的SOTA方法FairMOT3個(gè)點(diǎn)(MOT16)和2.4個(gè)點(diǎn)(MOT17)。

RelationTrack

問(wèn)題描述

RelationTrack旨在完成目標(biāo)檢測(cè)和基于ReID的軌跡關(guān)聯(lián)任務(wù),由三個(gè)部分組成,分別是檢測(cè)器?(?)\phi(\cdot)?(?)、ReID特征提取器ψ(?)\psi(\cdot)ψ(?)以及關(guān)聯(lián)器φ(?)\varphi(\cdot)φ(?),它們分別負(fù)責(zé)目標(biāo)的定位、目標(biāo)的特征提取以及軌跡的生成。

形式上,輸入圖像It∈RH×W×CI_{t} \in \mathbb{R}^{H \times W \times C}It?RH×W×C,不妨記?(It)\phi\left(I_{t}\right)?(It?)ψ(It)\psi\left(I_{t}\right)ψ(It?)btb_{t}bt?ete_{t}et?,顯然可以知道bt∈Rk×4b_{t} \in \mathbb{R}^{k \times 4}bt?Rk×4et∈Rk×De_{t} \in \mathbb{R}^{k \times D}et?Rk×D。上面的HHHWWWCCC分別表示輸入圖像的高、寬和通道數(shù),kkktttDDD則表示檢測(cè)到的目標(biāo)數(shù)、圖像的幀索引以及ReID embedding向量的維度。btb_tbt?ete_tet?分別指的是目標(biāo)的邊框坐標(biāo)和相應(yīng)的ReID特征向量。在完成檢測(cè)和特征向量的提取之后,φ(?)\varphi(\cdot)φ(?)基于ete_tet?對(duì)不同幀的btb_tbt?進(jìn)行關(guān)聯(lián)從而生成軌跡,目前的主流思路是只要檢測(cè)和ReID足夠準(zhǔn),使用一個(gè)簡(jiǎn)單的關(guān)聯(lián)器即可,如匈牙利算法。

整體框架

下面的這個(gè)圖就是RelationTrack的整體框架,總的來(lái)看分為五部分,分別是特征提取、特征解耦、ReID表示學(xué)習(xí)以及最后的數(shù)據(jù)關(guān)聯(lián),整個(gè)框架都是針對(duì)單幀進(jìn)行處理的。首先,圖像送入backbone中得到特征圖,隨后GCD模塊將這個(gè)特征圖解耦為兩個(gè)特征圖,分別為檢測(cè)信息和ReID信息,檢測(cè)分支通過(guò)檢測(cè)信息進(jìn)行類(lèi)似于CenterNet的目標(biāo)定位而GTE模塊則負(fù)責(zé)生成判別性的目標(biāo)特征表示。最后,有了目標(biāo)框和對(duì)應(yīng)的特征表示,就可以通過(guò)匈牙利算法進(jìn)行關(guān)聯(lián)從而得到最終的跟蹤軌跡了。

GCD

在上面的整體框架了解后,我們來(lái)看看GCD(Global Context Disentangling)模塊具體是如何實(shí)現(xiàn)特征圖解耦的。實(shí)際上,GCD分為兩個(gè)階段進(jìn)行,首先是全局上下文向量的生成然后利用這個(gè)向量去解耦輸入特征圖,它的流程其實(shí)就是上圖的中間部分。

x={xi}i=1Npx=\left\{x_{i}\right\}_{i=1}^{N_{p}}x={xi?}i=1Np??為輸入的特征圖(就是backbone得到的,一般是64通道的),這里的NpN_pNp?表示像素?cái)?shù)目即H′×W′H^{\prime} \times W^{\prime}H×WH′H^{\prime}HW′W^{\prime}W分別表示特征圖的高和寬。首先,第一個(gè)階段先是計(jì)算全局上下文特征向量,可以用下面的式子表示,這里的WkW_kWk?表示的是一個(gè)可學(xué)習(xí)的線性變換,文中采用1x1卷積實(shí)現(xiàn)。這個(gè)過(guò)程其實(shí)是一個(gè)空間注意力圖的形成。

z=∑j=1Npexp?(Wkxj)∑m=1Npexp?(Wkxm)xjz=\sum_{j=1}^{N_{p}} \frac{\exp \left(W_{k} x_{j}\right)}{\sum_{m=1}^{N_{p}} \exp \left(W_{k} x_{m}\right)} x_{j} z=j=1Np??m=1Np??exp(Wk?xm?)exp(Wk?xj?)?xj?

不過(guò),作者這里似乎沒(méi)有刻意提及利用這個(gè)注意力圖更新原始輸入在進(jìn)行通道注意力得到一個(gè)特征向量,這個(gè)向量才是后續(xù)兩個(gè)轉(zhuǎn)換層的輸入。(個(gè)人理解)

接著,進(jìn)入第二個(gè)階段,兩個(gè)轉(zhuǎn)換層(對(duì)應(yīng)上圖中間部分的上下對(duì)稱(chēng)的兩個(gè)結(jié)構(gòu),由卷積、LayerNorm、ReLU和卷積構(gòu)成),它將上一個(gè)階段的輸出zzz結(jié)構(gòu)成兩個(gè)任務(wù)指定的特征向量,將這個(gè)向量和原始的特征圖broadcast之后相加則可以獲得檢測(cè)任務(wù)特定的embedding d={di}i=1Npd=\left\{d_{i}\right\}_{i=1}^{N_{p}}d={di?}i=1Np??和ReID任務(wù)指定的r={ri}i=1Npr=\left\{r_{i}\right\}_{i=1}^{N_{p}}r={ri?}i=1Np??。這個(gè)過(guò)程可以通過(guò)下面的式子描述,其中的Wd1,Wd2,We1W_{d 1}, W_{d 2}, W_{e 1}Wd1?,Wd2?,We1? and We2W_{e 2}We2?均表示可學(xué)習(xí)的參數(shù)矩陣,ReL?U(?)\operatorname{ReL} U(\cdot)ReLU(?)Ψln?(?)\Psi_{\ln }(\cdot)Ψln?(?)表示線性修正單元和層標(biāo)準(zhǔn)化操作。

di=xi+Wd2ReLU(Ψln(Wd1z))ri=xi+Wr2ReLU(Ψln(Wr1z))\begin{array}{l} d_{i}=x_{i}+W_{d 2} R e L U\left(\Psi_{l n}\left(W_{d 1} z\right)\right) \\ r_{i}=x_{i}+W_{r 2} R e L U\left(\Psi_{l n}\left(W_{r 1} z\right)\right) \end{array} di?=xi?+Wd2?ReLU(Ψln?(Wd1?z))ri?=xi?+Wr2?ReLU(Ψln?(Wr1?z))?

如果考慮批量輸入III,它的shape為(B′,H′,W′,C′)\left(B^{\prime}, H^{\prime}, W^{\prime}, C^{\prime}\right)(B,H,W,C),則Ψln(?)\Psi_{l n}(\cdot)Ψln?(?)這個(gè)標(biāo)準(zhǔn)化可以使用下面的式子定義,其中的IbhwcI_{b h w c}Ibhwc?I~bhwc\tilde{I}_{b h w c}I~bhwc?是輸入和輸出在(b,h,w,c)(b,h,w,c)(b,h,w,c)處的元素。

μb=1H′W′C′∑1H′∑1W′∑1C′Ibhwcσb2=1H′W′C′∑1H′∑1W′∑1C′(Ibhwc?μb)2I~bhwc=Ibhwc?μbσb2+?\begin{array}{l} \mu_{b}=\frac{1}{H^{\prime} W^{\prime} C^{\prime}} \sum_{1}^{H^{\prime}} \sum_{1}^{W^{\prime}} \sum_{1}^{C^{\prime}} I_{b h w c} \\ \sigma_{b}^{2}=\frac{1}{H^{\prime} W^{\prime} C^{\prime}} \sum_{1}^{H^{\prime}} \sum_{1}^{W^{\prime}} \sum_{1}^{C^{\prime}}\left(I_{b h w c}-\mu_{b}\right)^{2} \\ \tilde{I}_{b h w c}=\frac{I_{b h w c}-\mu_{b}}{\sqrt{\sigma_{b}^{2}+\epsilon}} \end{array} μb?=HWC1?1H?1W?1C?Ibhwc?σb2?=HWC1?1H?1W?1C?(Ibhwc??μb?)2I~bhwc?=σb2?+??Ibhwc??μb???

從上面第一個(gè)式子可以看到,zzz的計(jì)算與iii的選擇是無(wú)關(guān)的,dddrrr的所有元素都可以通過(guò)同一個(gè)zzz計(jì)算得到。由此,其實(shí)GCD的復(fù)雜度只有O(C2)O\left(C^{2}\right)O(C2),相比于此前那些O(HWC2)O\left(H W C^{2}\right)O(HWC2)復(fù)雜度的全局注意力方法,GCD是非常高效的,后面的實(shí)驗(yàn)也證明了其有效性。

GTE

下面來(lái)看看GTE(Guided Transformer Encoder)模塊是如何實(shí)現(xiàn)的。事實(shí)上,注意力作為學(xué)習(xí)判別性特征的有效手段已經(jīng)被廣泛使用,但是此前的方法都使用固定感受野的卷積操作來(lái)獲得注意力圖,這其實(shí)忽視了不同目標(biāo)和背景區(qū)域之間的全局相關(guān)性。為了彌補(bǔ)這一點(diǎn),每個(gè)像素之間的全局注意力是作者考慮采用的手段,但是常規(guī)的全局注意力太龐大了,對(duì)分辨率較高的特征圖難以進(jìn)行。

為此,作者采用deformable attention來(lái)捕獲上下文的結(jié)構(gòu)化信息,它只需要在query nodes和自適應(yīng)選擇的關(guān)鍵樣本之間計(jì)算相似性而不需要使用所有特征圖上的樣本點(diǎn),這個(gè)操作可以將復(fù)雜度從O(H2W2C)O\left(H^{2} W^{2} C\right)O(H2W2C) 降到O(HWC)O(H W C)O(HWC)

進(jìn)一步,作者結(jié)合deformable attention和Transformer Encoder的優(yōu)勢(shì),形成了GTE模塊,如下圖所示。結(jié)合Transformer出色的推理能力和可變形注意力的自適應(yīng)全局感受野,GTE產(chǎn)生了非常有效的embedding。

下面,對(duì)著上面的圖我們來(lái)闡述一下Transformer encoder和deformable
attention的細(xì)節(jié)。

如上圖所示,這里采用Transformer的encoder結(jié)構(gòu)來(lái)進(jìn)行特征的,它的結(jié)構(gòu)和原始的Transformer的Encoder非常類(lèi)似,我這里不多贅述,不過(guò)原始的Self-Attention操作計(jì)算量過(guò)大,作者這里采用Deformble Attention替換它。

deformable attention的思想如下圖,對(duì)于下圖a感興趣區(qū)域的每個(gè)query node,deformable attention自適應(yīng)在整個(gè)圖上選擇有價(jià)值的key樣本點(diǎn),如下圖b所示,然后query和key進(jìn)行交互即可得到下圖c所示的注意力圖。deformable attention的具體工作流程如上圖的下半部分所示,給定輸入特征圖III,三個(gè)獨(dú)立的encoder Φa(?),Φb(?)\Phi_{a}(\cdot), \Phi_{b}(\cdot)Φa?(?),Φb?(?)Φc(?)\Phi_{c}(\cdot)Φc?(?)分別編碼生成offset map FaF_aFa?、key map FbF_bFb?以及query map FcF_cFc?。若每個(gè)query選擇NkN_kNk?個(gè)key樣本,那么FaF_aFa?將包含2Nk2N_k2Nk?個(gè)通道,分別表示NkN_kNk?個(gè)key相對(duì)于query的橫向和縱向的偏移。因此,對(duì)每個(gè)query節(jié)點(diǎn)q∈Iq \in IqI而言,它的坐標(biāo)ZqZ_qZq?以及key相對(duì)于ZqZ_qZq?FaF_aFa?上的偏移△Zk={△Zki}i=1Nk\triangle Z_{k}=\left\{\triangle Z_{k}^{i}\right\}_{i=1}^{N_{k}}Zk?={Zki?}i=1Nk??是可以知道的。

接著,根據(jù)key的坐標(biāo)Zk={Zki}i=1NkZ_{k}=\left\{Z_{k}^{i}\right\}_{i=1}^{N_{k}}Zk?={Zki?}i=1Nk??以及key map FbF_bFb?,可以獲得key 樣本向量Vk={Vki}i=1NkV_{k}=\left\{V_{k}^{i}\right\}_{i=1}^{N_{k}}Vk?={Vki?}i=1Nk??,它進(jìn)一步被Φd(?)\Phi_ozvdkddzhkzd(\cdot)Φd?(?)轉(zhuǎn)換。根據(jù)ZkZ_kZk?也可以對(duì)來(lái)自FcF_cFc?的query attention map Vq={Vqi}i=1NkV_{q}=\left\{V_{q}^{i}\right\}_{i=1}^{N_{k}}Vq?={Vqi?}i=1Nk??進(jìn)行裁剪。最終得到的特征圖FoF_oFo?可以通過(guò)下面的式子計(jì)算得到,這里的WmW_mWm?是可學(xué)習(xí)參數(shù),?\bullet?則是hadamard積。

Fo=Wm∑i=1NkVqi?FciF_{o}=W_{m} \sum_{i=1}^{N_{k}} V_{q}^{i} \bullet F_{c}^{i} Fo?=Wm?i=1Nk??Vqi??Fci?

Detection and Association

檢測(cè)分支思路和CenterNet是一致的,跟蹤方面也是和FairMOT一樣的匈牙利算法,不過(guò)這里采用了MAT的軌跡填充策略來(lái)平衡正負(fù)樣本。

Optimization objectives

兩個(gè)分支共同優(yōu)化,損失函數(shù)加權(quán)求和,和FairMOT的優(yōu)化方式幾乎一樣,如下所示,不詳細(xì)展開(kāi)了。

實(shí)驗(yàn)

實(shí)驗(yàn)數(shù)據(jù)集是MOT16、MOT17和MOT20,額外數(shù)據(jù)集和FairMOT一致,包括了CrowdHuman,預(yù)訓(xùn)練策略也和之前一樣。

各個(gè)模塊的消融實(shí)驗(yàn)如下。

解耦前后特征圖可視化如下,解耦效果還是很明顯的。

下面這個(gè)可視化則證明了RelationTrack的魯棒性很強(qiáng)。

總結(jié)

針對(duì)目前JDE范式下MOT方法的主流問(wèn)題,即分支矛盾采用了特征圖結(jié)構(gòu)的策略進(jìn)行緩解,利用Deformable DETR的思路進(jìn)行reid的全局信息捕獲,工作量還是挺大的,在MOT領(lǐng)域是值得關(guān)注的工作。本文也只是我本人從自身出發(fā)對(duì)這篇文章進(jìn)行的解讀,想要更詳細(xì)理解的強(qiáng)烈推薦閱讀原論文。最后,如果我的文章對(duì)你有所幫助,歡迎一鍵三連,你的支持是我不懈創(chuàng)作的動(dòng)力。

總結(jié)

以上是生活随笔為你收集整理的RelationTrack解读的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。