全尺度表示的上下文非局部对齐
【寫在前面】
基于文本的人物搜索旨在使用人物的描述性句子在圖像庫中檢索目標人物。這是一個非常具有挑戰性的問題,因為模態差異使得有效提取鑒別特征更加困難。此外,行人圖像和描述的類間方差很小。因此,需要綜合信息來在所有尺度上對齊視覺和文本線索。大多數現有方法僅考慮單個尺度(例如僅全局尺度或僅部分尺度)內圖像和文本之間的局部對齊,或僅在每個尺度上單獨構建對齊。為了解決這個問題,作者提出了一種能夠跨所有尺度自適應對齊圖像和文本特征的方法,稱為NAFS(即全尺度表示的非局部對齊)。首先,提出了一種新的階梯網絡結構來提取局部性更好的全尺度圖像特征。其次,提出了一種局部注意力訓練的BERT,以獲得不同尺度下的描述表示。然后,不是在每個尺度上單獨對齊特征,而是應用一種新的上下文非局部注意機制來同時發現所有尺度上的潛在對齊。實驗結果表明,在基于文本的個人搜索數據集上,本文的方法在top-1和top-5方面分別優于最先進的方法5.53%和5.35%。
1. 論文和代碼地址
Contextual Non-Local Alignment over Full-Scale Representation for Text-Based Person Search
論文地址:https://arxiv.org/abs/2101.03036[1]
代碼地址:https://github.com/TencentYoutuResearch/PersonReID-NAFS[2]
2. Motivation
基于文本的人物搜索旨在使用人物的描述性句子在圖像庫中檢索目標人物。與經典的人物再識別(Reid)相比,它不需要目標人物的圖像作為查詢。此外,基于文本的人員搜索更易于用戶使用,因為它可以支持開放式自然語言查詢。因此,它具有更廣泛的應用潛力。
與一幅圖像可能包含多個對象的一般圖像-文本匹配任務相比,基于文本的人員搜索是一項更具挑戰性的任務,因為不同行人圖像之間的高層語義非常相似,導致行人圖像和文本描述的類間差異很小。因此,為了探索更有特色和更全面的信息,基于文本的人搜索需要一種算法來從所有尺度中提取圖像和文本特征。例如,上圖中的圖像和文本描述都可以分解為不同比例的表示。這個句子可以用短句來表示,例如在3級的“黑色短褲”,或者在2級的更長的子句。類似地,圖像也可以按比例3和比例2劃分為不同大小的子區域。由于這些圖像表示和文本表示之間的正確對齊是圖像-文本匹配任務的基礎,因此必須在所有尺度上表示圖像和文本描述。在本文中,作者稱之為全尺度表示。然而,不同尺度下的復雜相關性使得很難建立合理的對齊方案。如上圖所示,在大多數情況下,對齊發生在相似的比例下,例如子句“一件黑色襯衫,上面有一個灰色十字架”和比例2中的圖像區域。但偶爾也會在不同的尺度上發生對齊。例如,如上圖中的紅色箭頭所示,比例3中的單個單詞“woman”與比例1中的整個圖像對齊。這些現象說明了在相似尺度和不同尺度下聯合對齊圖像和描述的重要性。因此,一種合理的基于文本的人員搜索方法通常包含兩個關鍵部分。一個是以從粗到細的方式學習所有尺度下的圖像和文本表示,另一個是探索適當的對齊方式,以自動和自適應地匹配這些不同尺度的表示。
現有的大多數作品無法完全滿足上述兩個角度。一方面,對于多尺度表示,大多數方法僅在一定尺度上學習圖像和文本描述的表示。幾種粗粒度方法側重于在全局尺度上學習表示,即上圖比例1所示的整個圖像和句子。細粒度方法以最小比例對圖像和文本描述進行建模,例如上圖比例3中所示的圖像區域和短短語。盡管一些細粒度方法[考慮將最小尺度與全局尺度相結合,但它們仍然缺乏中尺度信息,導致一些描述段(圖像區域)無法與適當的圖像區域(描述段)正確對齊。
另一方面,對于跨尺度對齊,現有方法嘗試使用預先定義的規則來對齊不同尺度的圖像和文本描述。一些方法只考慮圖像和文本描述的全局匹配。其他一些方法添加了短短語和圖像區域之間的對齊,如圖1比例3所示,但忽略了不同比例之間的對齊。最近,一些方法進一步增加了整個圖像和短句之間的額外對齊,以及小圖像條紋和整個句子之間的對齊。這些方法表明,利用多尺度特征可以顯著提高性能。然而,它們都預先定義了不同尺度(例如全局-全局、局部-局部)的圖像表示和文本表示之間的幾種對齊規則,并分別在這些固定尺度對內建立對齊。因此,它將對齊限制在一定范圍內,導致完全忽略比例對之外的圖像表示和文本表示之間的對齊。
為了解決上述問題,在本文中,作者提出了一種新的基于文本的人員搜索方法,該方法為圖像和文本表示構建全尺度表示,并在所有尺度上自適應對齊它們,稱為NAFS(全尺度表示上的非局部對齊)。首先,作者提出了一種新的階梯網絡將更好的局部性結合到學習的全尺寸圖像特征中的條紋分割操作。然后,通過添加局部約束注意的改進BERT語言模型來提取全尺度文本特征。接下來,作者開發了一種更靈活的對齊機制,稱為語境非局部注意,它能夠聯合將所有尺度的圖像表示和文本表示作為輸入,然后自適應地在所有尺度上建立對齊,而不是在幾個預先定義的尺度下對齊特征(例如,局部-局部、全局-全局)。最后,提出了一種新的基于最近視覺鄰域的重新排序算法,以進一步提高排序質量。
本文的主要貢獻可以總結如下:(1)專門開發了一種新的階梯CNN網絡和局部約束BERT模型來提取全尺度圖像和文本表示。(2) 提出了一種上下文非局部注意機制,用于在所有尺度上自適應對齊學習的表示。(3) 該框架在具有挑戰性的數據集CUHK-PEDES上實現了最先進的結果。廣泛的消融研究清楚地證明了本文方法中每個成分的有效性。
3. 方法
在本節中,首先,作者介紹了提取視覺和文本表示的過程。然后作者描述了本文的語境非局部注意機制。最后,作者介紹了所提出的通過視覺鄰居重新排序的方法,以進一步提高性能。
3.1. 提取視覺表示
樓梯主干結構
首先,作者詳細闡述了所提出的樓梯網絡的實現細節。如上圖所示,它包含三個分支,每個分支負責從粗到細提取不同尺度的視覺特征,即全局分支(藍色)、區域分支(黃色)和patch分支(綠色)。一般的ResNet網絡用作主干網。1) 全局分支用于提取全局和最粗糙的特征。2) 區域分支從圖像中的大子區域中提取內部特征。它將全局分支第二階段的特征映射作為輸入,然后輸入到兩個連續的res塊中,在區域尺度上提取特征。然后將區域分支的輸出特征映射水平分割為個條帶,每個條帶進一步編碼為特定區域的局部特征。3) patch分支從圖像中的小patch中提取最新特征。它將全局分支第三階段的特征圖作為輸入,然后將其輸入到一個res塊中,以在小patch尺度上提取特征。然后,作者將輸出的特征圖水平分割成條條紋,以提取局部patch的個特征向量。
拆分和shuf?e操作
基于條帶的ReID模型面臨的一個挑戰是,由于CNN模型的感知域很大,深層特征圖的條帶可能也包含全局信息。因此,為了保證多尺度圖像特征具有更好的局部性,作者引入了一種新的分割&shuffle操作。它將中間特征映射作為輸入,然后將特征映射平均劃分為幾個水平條帶,表示為列表,其中是從特征映射頂部開始的第i個條帶。然后,對這組分區條紋沿縱軸進行隨機分解和重新連接形成完整的特征圖作為輸出。第2階段和第3階段的特征圖將在分別輸入范圍和patch分支之前首先分割和細化。通過隨機分割條紋,它可以打破連續條紋之間的相互關系,使模型能夠專注于每個條紋內的信息。由于本文的上下文非局部注意力不依賴于特征圖片段的順序,因此沒有必要將分割的條紋重新組織為原始順序。
視覺表征提取模塊將行人圖像作為輸入,然后可以獲得不同尺度的圖像特征列表,并將其表示為,其中。
3.2. 提取文本表示
給定文本描述,作者在BERT中添加局部約束以提取的不同尺度表示。在本文的方法中,文本描述將分別在三個尺度中表示。1) 在句子層面,作者在句子的開頭添加了一個特殊的分類token([CLS])。與該token對應的最終隱藏狀態可以用作整個句子在全局視圖中的句子層面表示。2) 在中間層,作者用逗號分隔句子,從而得到一系列較短的子句子。對于列表中的每個子句,[CLS] token也附加到子句的開頭,其最終隱藏狀態也用作每個子句的表示。3) 在詞級,每個詞的最終隱藏狀態直接用作詞級表示。
對于常見的基于BERT的模型,所有token的隱藏變量具有相同的全局感知場。每個token都可以處理整個輸入句子中的任何token。為了為句子中的子區域表示(子句子的[CLS]標記)提供局部性,作者提出了一個局部性約束注意模塊來關注一定范圍內的token。與原始BERT類似,假設查詢對應于子實體(表示為)的[CLS] token,局部約束注意力計算如下:
其中和分別表示對應于句子中所有token的鍵和值。U是該子句子范圍內的token集,是一個指示函數,當第i個token在U中時返回1。
文本表示提取模塊將行人描述作為輸入,然后可以獲得不同尺度的文本嵌入列表,并表示為,其中。
3.3. 語境非局部注意機制
如上圖所示,語境非局部注意需要兩個輸入:一組視覺特征和一組文本特征。注意力模塊的輸出是衡量圖像-文本對相關性的相似性分數。簡言之,語境非局部注意使跨模態特征能夠根據其語義以從粗到細的方式相互對齊,而不僅僅是使用預先定義和固定的規則(例如,局部-局部、全局-全局)。
受自注意力的啟發,作者可以將本文提出的注意力機制解釋為將查詢和一組鍵值對映射到輸出。對于視覺特征,使用兩個學習的線性投影將I映射到視覺查詢和視覺值。類似地,探索了兩個線性投影,以將T映射到文本鍵和文本值。基于,作者從圖像-文本和文本-圖像兩個方面介紹了本文提出的注意機制。
圖像-文本上下文非局部注意
提出的圖像-文本注意模塊包括兩個階段。首先,每個視覺查詢關注文本鍵,以獲得相應的關注文本值。然后,考慮所有視覺值及其相關文本值,可以確定圖像-文本對之間的相似性。具體來說,為了獲得關注的文本值,作者首先計算和的余弦相似矩陣以獲得上的權重:
其中,表示第a個視覺查詢和第b個文本鍵之間的相似性。此外,作者將其歸一化為。此外,為了濾除不相關的文本值,作者使用焦點注意力技巧,其中。然后,作者計算加權文本值為:
其中是softmax函數的inverse temperature。
在第二階段,作者利用和之間的余弦相似性確定視覺值與其相應文本語境之間的相關性:
通過平均所有,得到圖像-文本對的相似性為:
每個視覺特征都更加關注相關的文本特征。相關的文本特征可能來自一個單詞、一個短語或整個句子,這僅僅取決于視覺特征和文本特征是否具有相似的語義。相反,以前的方法傾向于以固定的方式建立對應關系。作者通過啟用基于語義的注意機制來建立跨不同尺度的對應關系,從而放松了這些約束,這有助于更自適應、更正確地對齊圖像-文本對。
文本-圖像上下文非局部注意
與圖像-文本上下文非局部注意類似,作者分別將文本鍵視為查詢和視覺查詢視為鍵,并針對視覺查詢關注文本鍵。然后,利用文本值和關注的視覺值,計算圖像-文本對之間的相似性。具體而言,第b個視覺值相對于第a個文本值的權重定義為。歸一化和聚焦加權定義為。
加權視覺值定義為。
使用加權視覺值 和文本值,作者計算他們的相似度。然后通過平均操作獲得他們最終的相似度。
對齊目標
作者引入了一個名為跨尺度對齊損失(CSAL)的目標函數來優化該算法。給定一batch圖像,標題和所有圖像-文本對,如果是匹配對,則,否則為0,作者將的圖像-文本相似性定義為,將文本-圖像相似性定義為。為了最大化匹配對之間的相似性并抑制不匹配對的作者將CSAL定義為:
其中表示一個小數字,以避免數值問題。
考慮到主干對多尺度特征至關重要,作者使用的跨模態投影匹配(CMPM)和跨模態投影分類(CMPC),通過在從全局分支提取的特征上添加CMPM和CMPC損失來穩定訓練過程。因此,最終目標函數為:
3.4. 按視覺鄰居重新排序
作者提出了一種多模態重新排序算法,通過將查詢的視覺鄰居與庫(RVN)進行比較來進一步提高性能。給定文本查詢T,根據圖像與查詢的相似性對圖像進行排序,從而獲得初始排名列表。然后,對于初始列表中的每個圖像I,作者根據其視覺表示的相似性獲得其l-最近鄰圖像,表示為。類似地,可以基于文本表示和圖像視覺表示之間的相似性來獲得文本查詢的最近鄰,表示為。在這里,為了加速計算,僅使用全局特征來查找最近鄰。然后,作者通過比較最近的鄰居和Jaccard距離,重新計算文本查詢和圖庫中每個圖像之間的成對相似性:
最后,根據原始相似度和Jaccard距離的平均分數對庫進行重新排序。
4.實驗
上表展示了本文方法在顯示了本文的結果與最先進的方法在CUHK-PEDES上的比較。
上表顯示了在不同尺度下使用表示的性能。添加局部信息后,Top1性能從55.47提高到56.90。添加中等規模信息后,top1性能從56.90提高到59.94。這意味著不同的比例信息有利于對齊過程。
為了驗證在不同尺度下將聯合對齊引入表示的有效性,作者在上表中將本文的聯合對齊與使用預定義對齊的方法進行了比較。
上表展示了本文提出的不同模塊的有效性的消融實驗結果。
為了證明NAFS在不同尺度下發現聯合對齊的能力,作者在不同尺度下可視化了文本描述和圖像區域之間的對齊結果,如上圖所示。為了更好地可視化所提出的上下文非局部注意機制,作者在區域分支中將輸出特征圖水平劃分為三條條紋,在patch分支中劃分為六條條紋分別地用紅色和黃色高亮顯示的圖像區域對相應的文本描述具有最高和第二高的注意力權重。對于注意力權重相似的兩個子區域,這兩個子區域都將突出顯示。
5. 總結
作者提出了一種新穎的基于文本的人員搜索方法,該方法可以對稱為NAFS的全尺寸表示進行聯合對齊。提出了一種新穎的樓梯CNN網絡和局部受限的BERT模型來提取多尺度圖像和文本表示。上下文的非局部注意機制自適應地調整了不同尺度上的學習表示。對CUHK-PEDES數據集的廣泛消融研究表明,我們的方法在很大程度上優于最先進的方法。
已建立深度學習公眾號——FightingCV,歡迎大家關注!!!
ICCV、CVPR、NeurIPS、ICML論文解析匯總:https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading
面向小白的Attention、重參數、MLP、卷積核心代碼學習:https://github.com/xmu-xiaoma666/External-Attention-pytorch
加入交流群,請添加小助手wx:FightngCV666
參考資料
[1]https://arxiv.org/abs/2101.03036: https://arxiv.org/abs/2101.03036
[2]https://github.com/TencentYoutuResearch/PersonReID-NAFS: https://github.com/TencentYoutuResearch/PersonReID-NAFS
總結
以上是生活随笔為你收集整理的全尺度表示的上下文非局部对齐的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: KAIST : Multispectra
- 下一篇: Improving descriptio