當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

attention retain_Attention-Aware Compositional Network

發(fā)布時(shí)間：2025/4/5 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 attention retain_Attention-Aware Compositional Network 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Author: CFhM_R

? Mail: CFhM_R@outlook.com

寫(xiě)在前面

本文介紹了一種Re-ID中利用part和pose信息來(lái)提升accuracy的方法，一個(gè)highlight是使用了關(guān)鍵點(diǎn)技術(shù)，也恰如作者在文中給出的 state-of-art 的評(píng)價(jià)，該方法巧妙地解決了傳統(tǒng)的RoI方式進(jìn)行part采樣導(dǎo)致的干擾過(guò)多的問(wèn)題，并且在網(wǎng)絡(luò)結(jié)構(gòu)上也有一定的創(chuàng)新。

傳統(tǒng)方法的問(wèn)題

文章開(kāi)篇即闡述了傳統(tǒng)的Re-ID面臨的問(wèn)題：復(fù)雜的背景、多樣的光照條件、不可控的相機(jī)設(shè)置參數(shù)、嚴(yán)重的遮擋關(guān)系以及多變的姿態(tài)，而觀測(cè)角度的不同和pose的差異會(huì)使傳統(tǒng)的分格或分區(qū)(patches and stripes)的part alignment方式產(chǎn)生較大的誤差，即有種不能”因地制宜“的感覺(jué)。

RoI Issues

文章也舉出了簡(jiǎn)單的例子：如下圖中對(duì)同一個(gè)id的probe和gallery的leg-part的選取，可以發(fā)現(xiàn)(b)中的人物的腿部框選區(qū)要明顯更加符合”leg“的設(shè)定，和這也是局限于目前的patches / stripes / RoI 方法都是以矩形框作為采樣區(qū)域，同時(shí)帶來(lái)的還有(a)中大量北京因素對(duì)part info的干擾。

而本文中提出的方法則是使用Pose-guided Part Attention來(lái)代替?zhèn)鹘y(tǒng)的RoI，可以很好的解決背景因素以及相鄰的肢體帶來(lái)的干擾，一個(gè)簡(jiǎn)單的demo如下圖(c)彩色區(qū)域所示。

遮擋物帶來(lái)的問(wèn)題

遮擋物對(duì)于行人檢索的影響有積極也有消極，所以要分開(kāi)去看。如下圖中的例子，首先(d)中遮擋指的是手臂對(duì)軀干的遮擋，而軀干衣服上的logo可以作為這一對(duì)軌跡識(shí)別的feature的主要來(lái)源(by means)，因此此時(shí)手臂的遮擋就產(chǎn)生了negative的影響；而相反的例子則是(f)中的背包，它對(duì)軀干這個(gè)part造成了完全的遮擋，但是背包恰恰成為了這個(gè)id的一個(gè)凸顯的特征，因此這個(gè)背包帶來(lái)的是positive的影響。

文章對(duì)遮擋采取3種處理措施：對(duì)帶來(lái)消極影響的遮擋物采取的自然是弱化其在最終的feature map中的權(quán)重，而弱化的”度“又分兩種對(duì)于(f)中的手臂對(duì)軀干的遮擋，由于沒(méi)有完全遮擋，因此這部分僅僅是"弱化"(weaken)

對(duì)于(e)中，pose的改變導(dǎo)致軀干消失，變?yōu)楸巢?#xff0c;可以理解為一種完全的遮擋，文章采取的處理方式是”消除“(eliminate)

對(duì)產(chǎn)生積極影響的自然采取的是”保留“甚至提升比重(retain)

Attention-Aware Composition Network

綜上所述，為了解決行人檢索中part信息無(wú)法對(duì)應(yīng)對(duì)齊(misalignment)以及遮擋物的問(wèn)題(occlusions)，文章提出了AACN這樣一種網(wǎng)絡(luò)結(jié)構(gòu)，如下圖。

可以看到AACN大體分兩個(gè)部分，上部為Pose-guided Part Attention 模塊，用于提取Part信息，下面則是AACN的主體，Attention-aware Feature Composition Model，AFC部分會(huì)先抽取整個(gè)圖片的feature，再結(jié)合PPA給出的attention信息和visibility score來(lái)調(diào)整part的權(quán)重，最終得出軌跡的feature map。

Pose-guided Part Attention

文章將人體的part分為兩個(gè)部分——rigid part 和 non-rigid part，即可形變和不可形變(不知道怎么翻譯了……)部分，non-rigid part包含四肢和脖子，rigid part則是頭肩、上半軀干以及下半軀干(腰到膝蓋)，詳見(jiàn)圖。

PPA參考了RPN提供的關(guān)鍵點(diǎn)分類，定義了人體的14個(gè)關(guān)鍵點(diǎn)，并通過(guò)關(guān)鍵點(diǎn)的連線以及關(guān)鍵點(diǎn)圍成的凸包來(lái)確定各個(gè)part，通過(guò)神經(jīng)網(wǎng)絡(luò)在ground-truth周圍學(xué)習(xí)part的大致范圍，最終可以如上圖demo中給出的樣子較準(zhǔn)確地描繪出part所在的區(qū)域，減少了大量的干擾信息。

由此PPA分出了3支，分別學(xué)習(xí)關(guān)鍵點(diǎn)信息、rigid part 和 non-rigid part 的信息，而PPA整體分兩個(gè)部分，第一部分是獨(dú)立的預(yù)測(cè)上述三部分的信息，給出結(jié)果。而第二部分則是對(duì)第一部分的三類結(jié)果進(jìn)行融合修正，給出最終的結(jié)果。

關(guān)鍵點(diǎn)信息的ground truth由MPII的datasets定義的14個(gè)關(guān)鍵點(diǎn)標(biāo)準(zhǔn)給出，方法是在標(biāo)準(zhǔn)位置周圍的高斯分布(正態(tài))生成ground truth范圍，并且計(jì)算MSE作為L(zhǎng)oss。

non-rigid part的ground truth 為指定的兩關(guān)鍵的連線的寬度為的一段，attention map為01矩陣。

rigid part的ground truth為指定關(guān)鍵點(diǎn)點(diǎn)集的凸包，attention map同樣是01矩陣。

最終還要產(chǎn)生一個(gè)visibility score來(lái)輔助權(quán)衡各個(gè)part的權(quán)重，由各個(gè)部分的attention map的”強(qiáng)弱“來(lái)體現(xiàn)。

Attention-Aware Feature Composition

Global Context Network

AFC部分最開(kāi)始是一個(gè)很base的網(wǎng)絡(luò)用來(lái)抽取全局的feature，文章采用的是GoogleNet，比較trick的改動(dòng)的是在inception_5b/output層后加了一個(gè)128通道的?的卷積層，輸入圖片大小為?，可以看到比一般廣泛采用的?要大，可以推測(cè)這樣改動(dòng)也是為了獲得更好的視域，來(lái)適應(yīng)RPN的關(guān)鍵點(diǎn)(避免太過(guò)密集等等)。

Attention-Aware Feature Alignment

Global feature map和Part feature map的融合文章采用了一種看起來(lái)很”粗暴“的方法——G-feature和每個(gè)P-feature(128通道，經(jīng)過(guò)max-歸一化的)做H-Product，之后進(jìn)行g(shù)lobally average pooling1 ，將Part p的feature maps變成該part的一個(gè)特征向量，最后將各個(gè)part的向量連接起來(lái)就是最終的向量。

[1] 出自network in network，為了解決全連接問(wèn)題，簡(jiǎn)單說(shuō)就是將feature map所有的特征值均一池化得到一個(gè)特征點(diǎn)，最后將這些點(diǎn)組成一個(gè)特征向量送進(jìn)softmax計(jì)算。

Weighted Feature Composition

考慮到各個(gè)part所占的比重隨著pose、遮擋情況應(yīng)當(dāng)不同，文章將attention map和visibility score連接后通過(guò)一個(gè)全連接層(用1*1卷積層實(shí)現(xiàn)的)來(lái)生成一個(gè)權(quán)重向量，最終的feature 由，其中指卷積操作，為各個(gè)part的迭代變量，作者對(duì)這部分的講述并不詳細(xì)。

總結(jié)

以上是生活随笔為你收集整理的attention retain_Attention-Aware Compositional Network的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：三菱系统G90G10L12P9R0.1怎
下一篇： lisp点转为vla_一种将Region