日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

attention retain_Attention-Aware Compositional Network

發(fā)布時(shí)間:2025/4/5 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 attention retain_Attention-Aware Compositional Network 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Author: CFhM_R

? Mail: CFhM_R@outlook.com

寫(xiě)在前面

本文介紹了一種Re-ID中利用part和pose信息來(lái)提升accuracy的方法,一個(gè)highlight是使用了關(guān)鍵點(diǎn)技術(shù),也恰如作者在文中給出的 state-of-art 的評(píng)價(jià),該方法巧妙地解決了傳統(tǒng)的RoI方式進(jìn)行part采樣導(dǎo)致的干擾過(guò)多的問(wèn)題,并且在網(wǎng)絡(luò)結(jié)構(gòu)上也有一定的創(chuàng)新。

傳統(tǒng)方法的問(wèn)題

文章開(kāi)篇即闡述了傳統(tǒng)的Re-ID面臨的問(wèn)題:復(fù)雜的背景、多樣的光照條件、不可控的相機(jī)設(shè)置參數(shù)、嚴(yán)重的遮擋關(guān)系以及多變的姿態(tài),而觀測(cè)角度的不同和pose的差異會(huì)使傳統(tǒng)的分格或分區(qū)(patches and stripes)的part alignment方式產(chǎn)生較大的誤差,即有種不能”因地制宜“的感覺(jué)。

RoI Issues

文章也舉出了簡(jiǎn)單的例子:如下圖中對(duì)同一個(gè)id的probe和gallery的leg-part的選取,可以發(fā)現(xiàn)(b)中的人物的腿部框選區(qū)要明顯更加符合”leg“的設(shè)定,和這也是局限于目前的patches / stripes / RoI 方法都是以矩形框作為采樣區(qū)域,同時(shí)帶來(lái)的還有(a)中大量北京因素對(duì)part info的干擾。

而本文中提出的方法則是使用Pose-guided Part Attention來(lái)代替?zhèn)鹘y(tǒng)的RoI,可以很好的解決背景因素以及相鄰的肢體帶來(lái)的干擾,一個(gè)簡(jiǎn)單的demo如下圖(c)彩色區(qū)域所示。

遮擋物帶來(lái)的問(wèn)題

遮擋物對(duì)于行人檢索的影響有積極也有消極,所以要分開(kāi)去看。如下圖中的例子,首先(d)中遮擋指的是手臂對(duì)軀干的遮擋,而軀干衣服上的logo可以作為這一對(duì)軌跡識(shí)別的feature的主要來(lái)源(by means),因此此時(shí)手臂的遮擋就產(chǎn)生了negative的影響;而相反的例子則是(f)中的背包,它對(duì)軀干這個(gè)part造成了完全的遮擋,但是背包恰恰成為了這個(gè)id的一個(gè)凸顯的特征,因此這個(gè)背包帶來(lái)的是positive的影響。

文章對(duì)遮擋采取3種處理措施:對(duì)帶來(lái)消極影響的遮擋物采取的自然是弱化其在最終的feature map中的權(quán)重,而弱化的”度“又分兩種對(duì)于(f)中的手臂對(duì)軀干的遮擋,由于沒(méi)有完全遮擋,因此這部分僅僅是"弱化"(weaken)

對(duì)于(e)中,pose的改變導(dǎo)致軀干消失,變?yōu)楸巢?#xff0c;可以理解為一種完全的遮擋,文章采取的處理方式是”消除“(eliminate)

對(duì)產(chǎn)生積極影響的自然采取的是”保留“甚至提升比重(retain)

Attention-Aware Composition Network

綜上所述,為了解決行人檢索中part信息無(wú)法對(duì)應(yīng)對(duì)齊(misalignment)以及遮擋物的問(wèn)題(occlusions),文章提出了AACN這樣一種網(wǎng)絡(luò)結(jié)構(gòu),如下圖。

可以看到AACN大體分兩個(gè)部分,上部為Pose-guided Part Attention 模塊,用于提取Part信息,下面則是AACN的主體,Attention-aware Feature Composition Model,AFC部分會(huì)先抽取整個(gè)圖片的feature,再結(jié)合PPA給出的attention信息和visibility score來(lái)調(diào)整part的權(quán)重,最終得出軌跡的feature map。

Pose-guided Part Attention

文章將人體的part分為兩個(gè)部分——rigid part 和 non-rigid part,即可形變和不可形變(不知道怎么翻譯了……)部分,non-rigid part包含四肢和脖子,rigid part則是頭肩、上半軀干以及下半軀干(腰到膝蓋),詳見(jiàn)圖。

PPA參考了RPN提供的關(guān)鍵點(diǎn)分類,定義了人體的14個(gè)關(guān)鍵點(diǎn),并通過(guò)關(guān)鍵點(diǎn)的連線以及關(guān)鍵點(diǎn)圍成的凸包來(lái)確定各個(gè)part,通過(guò)神經(jīng)網(wǎng)絡(luò)在ground-truth周圍學(xué)習(xí)part的大致范圍,最終可以如上圖demo中給出的樣子較準(zhǔn)確地描繪出part所在的區(qū)域,減少了大量的干擾信息。

由此PPA分出了3支,分別學(xué)習(xí)關(guān)鍵點(diǎn)信息、rigid part 和 non-rigid part 的信息,而PPA整體分兩個(gè)部分,第一部分是獨(dú)立的預(yù)測(cè)上述三部分的信息,給出結(jié)果。而第二部分則是對(duì)第一部分的三類結(jié)果進(jìn)行融合修正,給出最終的結(jié)果。

關(guān)鍵點(diǎn)信息的ground truth由MPII的datasets定義的14個(gè)關(guān)鍵點(diǎn)標(biāo)準(zhǔn)給出,方法是在標(biāo)準(zhǔn)位置周圍的高斯分布(正態(tài))生成ground truth范圍,并且計(jì)算MSE作為L(zhǎng)oss。

non-rigid part的ground truth 為指定的兩關(guān)鍵的連線的寬度為的一段,attention map為01矩陣。

rigid part的ground truth為指定關(guān)鍵點(diǎn)點(diǎn)集的凸包,attention map同樣是01矩陣。

最終還要產(chǎn)生一個(gè)visibility score來(lái)輔助權(quán)衡各個(gè)part的權(quán)重,由各個(gè)部分的attention map的”強(qiáng)弱“來(lái)體現(xiàn)。

Attention-Aware Feature Composition

Global Context Network

AFC部分最開(kāi)始是一個(gè)很base的網(wǎng)絡(luò)用來(lái)抽取全局的feature,文章采用的是GoogleNet,比較trick的改動(dòng)的是在inception_5b/output層后加了一個(gè)128通道的?的卷積層,輸入圖片大小為?,可以看到比一般廣泛采用的?要大,可以推測(cè)這樣改動(dòng)也是為了獲得更好的視域,來(lái)適應(yīng)RPN的關(guān)鍵點(diǎn)(避免太過(guò)密集等等)。

Attention-Aware Feature Alignment

Global feature map和Part feature map的融合文章采用了一種看起來(lái)很”粗暴“的方法——G-feature和每個(gè)P-feature(128通道,經(jīng)過(guò)max-歸一化的)做H-Product,之后進(jìn)行g(shù)lobally average pooling1 ,將Part p的feature maps變成該part的一個(gè)特征向量,最后將各個(gè)part的向量連接起來(lái)就是最終的向量。

[1] 出自network in network,為了解決全連接問(wèn)題,簡(jiǎn)單說(shuō)就是將feature map所有的特征值均一池化得到一個(gè)特征點(diǎn),最后將這些點(diǎn)組成一個(gè)特征向量送進(jìn)softmax計(jì)算。

Weighted Feature Composition

考慮到各個(gè)part所占的比重隨著pose、遮擋情況應(yīng)當(dāng)不同,文章將attention map和visibility score連接后通過(guò)一個(gè)全連接層(用1*1卷積層實(shí)現(xiàn)的)來(lái)生成一個(gè)權(quán)重向量,最終的feature 由 ,其中指卷積操作,為各個(gè)part的迭代變量,作者對(duì)這部分的講述并不詳細(xì)。

總結(jié)

以上是生活随笔為你收集整理的attention retain_Attention-Aware Compositional Network的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。