當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Text to image论文精读 NAAF:基于负感知注意力的图像-文本匹配框架 Negative-Aware Attention Framework for Image-Text Matching

發布時間：2024/3/13 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了 Text to image论文精读 NAAF:基于负感知注意力的图像-文本匹配框架 Negative-Aware Attention Framework for Image-Text Matching 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

NAAF：Negative-Aware Attention Framework for Image-Text Matching是基于負感知注意力的圖文匹配，其利用匹配片段的積極影響和不匹配片段的消極影響來共同推斷圖像-文本的相似性，文章由中國科學技術大學和北京郵電大學學者在2022CVPR上發表。

論文地址：https://ieeexplore.ieee.org/document/9879764
代碼地址：https://github.com/CrossmodalGroup/NAAF.
作者博客地址：https://www.cnblogs.com/lemonzhang/p/16456403.html

注意：這篇論文主要討論的是圖像和文本的匹配，即語義一致性的方法。不是專用于做文本生成圖像的系列論文，本篇文章是閱讀這篇論文的精讀筆記。

一、原文摘要

圖文匹配作為一項基本任務，彌合了視覺和語言之間的鴻溝。這項任務的關鍵是準確測量這兩種模式之間的相似性。先前的工作主要基于匹配的片段（即，具有高相關性的單詞/區域）來測量這種相似性，同時低估甚至忽略了不匹配的片段的影響（即，低相關性的單詞或區域），例如，通過典型的LeaklyReLU或ReLU操作，該操作迫使負分數接近或精確到零。這項工作認為，不匹配的文本片段（包含豐富的不匹配線索）對圖像文本匹配也至關重要。

因此，我們提出了一種新的消極意識注意框架（NAAF），該框架明確地利用匹配片段的積極影響和不匹配片段的消極影響來共同推斷圖像-文本的相似性。NAAF（1）精心設計了一種迭代優化方法，以最大限度地挖掘不匹配的片段，促進更具辨別力和魯棒性的負面影響，（2）設計了雙分支匹配機制，以精確計算具有不同掩碼的匹配/不匹配片段的相似性/不相似性程度。在兩個基準數據集（即Flickr30K和MSCOCO）上進行的大量實驗證明了我們的NAAF的卓越性能，達到了最先進的性能。

二、圖像-文本匹配

圖像文本匹配任務定義：也稱為跨模態圖像文本檢索，即通過某一種模態實例，在另一模態中檢索語義相關的實例。例如，給定一張圖像，查詢與之語義對應的文本，反之亦然。具體而言，對于任意輸入的文本-圖像對（Image-Text Pair），圖文匹配的目的是衡量圖像和文本之間的語義相似程度（這也是文本生成圖像中很重要的一個點）。

圖片和文字由于模態的異構，存在極大的語義鴻溝。圖文匹配的關鍵挑戰在于準確學習圖片和文本之間的語義對應關系，并度量它們的相似性。在現有的圖像文本匹配方法中有兩種范式：

第一種方法傾向于執行全局級匹配，即找到文本和整個圖像之間的語義對應。他們通常將整體圖像和文本投射到一個共同的潛在空間，然后匹配這兩種模式。（CLIP可以被分為此類，其將圖像和文本同時投影到一個計算矩陣中，計算其相似度）。

第二種范式側重于檢查局部級匹配，即圖像中的顯著區域和文本中的單詞之間的匹配。局部級別匹配考慮了圖像和文本之間的細粒度語義對應。AttnGAN的DAMSM就是基于這個原理，其將句子的圖像和單詞的子區域映射到一個公共語義空間，從而在單詞級別測量圖像-文本相似度，以計算圖像生成的細粒度損失。

在局部級匹配的領域，基于注意力的匹配框架最近迅速成為主流，其關鍵思想是通過注意力關注來自另一模態的每個查詢片段的相關片段來發現所有單詞-圖像區域對齊。

三、為什么提出NAAF？

顯然匹配的片段（即，具有高相關性分數的單詞區域對）將對最終的圖像-文本相似性做出很大貢獻，而不匹配片段（即具有低相關性分數的詞區域對）的影響將被削弱甚至消除，例如，通過在注意力過程中迫使負分數接近或精確為零的典型LeakyReLU或ReLU。

現有的很多方法主要尋找匹配的片段，而低估或忽略了不匹配片段的影響，完全忽略了不匹配的文本片段在證明圖像文本不匹配中的關鍵作用，將不可避免地容易產生假陽性匹配：

假陽性匹配：
包含許多匹配片段但有一些不匹配的文本片段的圖像-文本對（直接表明圖像-文本不匹配）仍然可以獲得高相似度，并且可以正確地排在最前面，這肯定不是一個令人滿意的結果，比如說下例兩個男孩在一些樹旁的路上踢足球：現有的方法主要尋找匹配的片段，例如“男孩”、“樹”，以計算圖像-文本（I-T）相似性，而不匹配的片段（例如“足球”）的影響被典型的LeaklyReLU或ReLU削弱或忽略，顯然這并不是一個很優秀的匹配，但是由于他在大部分關鍵詞上匹配得分高，其匹配結果會非常靠前，這就屬于假陽性。

其主要集中于最大化匹配（即對齊）片段的效果，而低估或忽略了不匹配片段的線索作用。而合理的匹配框架應該同時考慮兩個方面，即圖像文本對的總體匹配分數不僅由匹配片段的積極影響決定，而且由不匹配片段的消極影響決定。可以充分的挖掘非對齊片段的負面作用，使原本檢索在Top位置的錯誤匹配降低相似分值，對圖像匹配度進行減分，如下圖所示，就可以很容易消除假陽性。

因此，作者提出了一種新的負感知注意力框架，該框架首次明確考慮了正匹配和負不匹配的片段，以聯合測量圖像-文本的相似性。與片面關注匹配片段的傳統匹配機制不同，該注意力框架可以有效地挖掘不匹配的文本片段，以進一步利用這兩種類型的線索進行聯合相似性推斷。并使用它們準確地反映兩種模式之間的差異。消極感知注意框架NAAF由兩個模塊組成：

設計了一種雙分支匹配來解決不匹配片段的利用率不足的問題，它包含了不同掩碼下的消極和積極注意，一種用于精確計算不匹配片段之間的相似度，另一種用于計算匹配片段之間相似度。分別測量精確的相似度/相異度，以聯合推斷整體圖像-文本相似度。

提出了一種新的迭代優化方法來顯式地建模和挖掘不匹配的片段。

四、NAAF

NAAF的總體框架如圖所示，可以看到，首先Feature Extraction提取圖像特征和文本特征（這里不再展開），然后Negative-aware Attntion使用負效應和正效應進行負意識注意以測量圖像和文本的相似性，其包括兩個主要模塊，用于顯式地利用負不匹配和正匹配的文本片段來聯合推斷圖像-文本相似性。1.不匹配挖掘模塊使失配線索產生更穩健的負面影響。2.正負雙分支匹配模塊精確計算兩種類型片段的正面和負面影響，從而測量總體相似性。

4.1、特征提取

視覺表征：給定圖像V，利用Visual Genome 預訓練的FasterRCNN檢測顯著對象和其他區域。然后，通過預訓練的ResNet-101過平均池卷積特征提取檢測區域。采用全連接層將每個區域映射到1024維特征。
文本表征：給定由m個單詞組成的文本U，我們將每個單詞熱編碼為1024維向量，并嵌入預先訓練的GloVe向量中，然后，向量被饋送到雙向門控循環單元（BiGRU）中，以整合前向和后向上下文信息。最終的單詞表示 $u_i$ 是雙向隱藏狀態的平均值。

4.2、Negative-aware Attntion

給定一個圖像-文本對，它可能包含豐富的匹配和不匹配片段。本模塊的目標就是充分利用這兩類線索，以實現更準確的匹配性能。在NAAF框架中主要有兩個模塊：

不匹配挖掘模塊：旨在通過最小化訓練過程中匹配和不匹配相似性分布之間錯誤重疊的懲罰概率，明確建模和最大限度地挖掘不匹配片段。

正負雙分支匹配模塊：旨在通過設計的兩個分支匹配，即負和正注意分支，精確計算負失配和正匹配的影響，以共同推斷相似性。

1??：不匹配挖掘模塊

不匹配挖掘模塊期望顯式地和自適應地建模失配和匹配片段的相似性分布，旨在最大限度地分離它們，以實現有效的不匹配片段挖掘。

為此，在訓練過程中，對于不匹配和匹配的單詞區域片段對，首先對它們的相似度進行采樣：

$\begin{aligned} S_{k}^{-} &=\left[s_{1}^{-}, s_{2}^{-}, s_{3}^{-}, \ldots, s_{i}^{-}, \ldots\right] \\ S_{k}^{+} &=\left[s_{1}^{+}, s_{2}^{+}, s_{3}^{+}, \ldots, s_{i}^{+}, \ldots\right] \end{aligned}$
其中S-表示不匹配區域-單詞的相似度分數，S+表示匹配區域-單詞的相似度分數。

基于構造出的兩個集合，可以分別建立匹配片段和不匹配片段的相似度分數s的概率分布模型：

分布模型公式表示為： $f_{k}^{-}(s)=\frac{1}{\sigma_{k}^{-} \sqrt{2 \pi}} e^{\left[-\frac{\left(s-\mu_{k}^{-}\right)^{2}}{2\left(\sigma_{k}^{-}\right)^{2}}\right]}, f_{k}^{+}(s)=\frac{1}{\sigma_{k}^{+} \sqrt{2 \pi}} e^{\left[-\frac{\left(s-\mu_{k}^{+}\right)^{2}}{2\left(\sigma_{k}^{+}\right)^{2}}\right]}$
其中（μ?k，σ?k）和（μ+k，σ+k）分別是兩種分布的平均值和標準差:

分別得到兩個相似度分布建模后，可以用一個顯式的邊界t在匹配片段和不匹配片段之間進行區分，如圖所示，相似度分數大于 $t_k$ 的區域-單詞對被視為匹配片段，反之則為不匹配片段,但是不可避免的就會出現兩種誤判：將實際上不匹配的片段區分為匹配的和將實際上匹配的片段誤認為是不匹配的。而此模塊的目的是最大限度的挖掘出不匹配片段，找出一個最優的邊界t，使得區分錯誤的概率最低，保證識別的準確性，即解決如下優化問題：

$\begin{array}{ll} \min _{t} & \alpha \int_{t}^{+\infty} f_{k}^{-}(s) d s+\int_{-\infty}^{t} f_{k}^{+}(s) d s, \\ \text { s.t. } & t \geq 0 \end{array}$
其中t是該問題的決策變量，α是懲罰參數。

對于該問題的最優解求解，我們首先搜索它的一階導數的零點，并根據可行域的約束條件在(t ≥ 0)處截斷，得到最優解為：
$\begin{array}{c} t_{k}=\left[\left(\left(\beta_{2}^{k^{2}}-4 \beta_{1}^{k} \beta_{3}^{k}\right)^{\frac{1}{2}}-\beta_{2}^{k}\right) /\left(2 \beta_{1}^{k}\right)\right]_{+} \\ \text {其中} \beta_{1}^{k}=\left(\sigma_{k}^{+}\right)^{2}-\left(\sigma_{k}^{-}\right)^{2}, \beta_{2}^{k}=2\left(\mu_{k}^{+} \sigma_{k}^{-2}-\mu_{k}^{-} \sigma_{k}^{+2}\right), \text { } \beta_{3}^{k}=\left(\sigma_{k}^{+} \mu_{k}^{-}\right)^{2}-\left(\sigma_{k}^{-} \mu_{k}^{+}\right)^{2}+2\left(\sigma_{k}^{+} \sigma_{k}^{-}\right)^{2} \ln \frac{\sigma_{k}^{-}}{\alpha \sigma_{k}^{+}} . \end{array}$

2??:正負雙分支匹配模塊

雙分支框架可以同時關注圖像-文本對中不匹配和匹配的片段，方法是使用不同的注意力掩碼分別精確測量它們在負注意力和正注意力中的影響。

具體地說，首先計算所有單詞和區域之間的語義相關性得分為:

$s_{i j}=\frac{u_{i} v_{j}^{\mathrm{T}}}{\left\|u_{i}\right\|\left\|v_{j}\right\|}, i \in[1, m], j \in[1, n]$ ，這里原理與AttnGAN中的DAMSM類似。

然后使用不同的注意力掩碼雙線計算：

負注意力分支：這一模塊的目標是準確有效地利用不匹配的片段，使它們有價值地降低不匹配圖像-文本對的整體相似性。分支依然從文本的角度出發，計算一個文本單詞和一個圖像所有區域的相似度與區分邊界

t_k

的差,其中的最大值體現了這個片段是匹配還是不匹配的程度:

s_{i}=\max _{j}\left(\left\{s_{i j}-t_{k}\right\}_{j=1}^{n}\right)

,由此，可以衡量出一個圖像文本對中第個單詞所帶來的負面作用為：

s_{i}^{\text {neg }}=s_{i} \odot \operatorname{Mask}_{\text {neg }}\left(s_{i}\right)

,其中

Mask_{neg}(?)

為掩碼函數，當輸入為負數時輸出為1，否則為0。同時，考慮到單詞在文本內的語義內關系，使語義相似的單詞獲得相同的匹配關系，在推理過程中，對每個單詞的匹配程度進行一次模態內傳播：

\hat{s}_{i}=\sum_{l=1}^{m} w_{i l}^{i n t r a} s_{l} \text {, s.t. } w_{i l}^{i n t r a}=\operatorname{softmax}_{\lambda}\left(\left\{\frac{u_{i} u_{l}^{\mathrm{T}}}{\left\|u_{i}\right\|\left\|u_{l}\right\|}\right\}_{l=1}^{m}\right)

,其中

w^{intra}_{il}

表示第i個和第l個單詞之間的語義關系，λ是比例因子。

正注意力分支：該分支旨在測量圖像-文本對的相似程度，首先關注跨模態的共享語義，第i個單詞在圖像中相關的共享語義可以被聚合為：

w_{i j}^{i n t e r}=\operatorname{softmax}_{\lambda}\left(\left\{\operatorname{Mask}_{\text {pos }}\left(s_{i j}-t_{k}\right)\right\}_{j=1}^{n}\right)

,其中

Mask_{pos}(?)

為掩碼函數，當輸入為正數時輸出與輸入相等，否則輸出

? \infty

，這樣使得不相關的圖像區域的注意力權重被削減至0，由此，片段的相似度分數為

s_{i}^{f}=u_{i} \hat{v}_{i}^{\mathrm{T}} /\left(\left\|u_{i}\right\|\left\|\hat{v}_{i}\right\|\right)

，另外，區域與單詞間的相關度分數也反應了圖文間的相似程度，故作者還根據單詞的相應相關性得分計算加權相似度：

s_{i}^{r}=\sum_{j=1}^{n} w_{i j}^{r e l e v} s_{i j}

其中,

w_{i j}^{r e l e v}=\operatorname{softmax}_{\lambda}\left(\left\{\bar{s}_{i j}\right\}_{j=1}^{n}\right), \bar{s}_{i j}=\left[s_{i j}\right]+/ \sqrt{\sum_{i=1}^{m}\left[s_{i j}\right]_{+}^{2}}

,因此，一個圖像文本對中第個單詞所帶來的正面作用為：

s_{i}^{\text {pos }}=s_{i}^{f}+s_{i}^{r}

。

最終，圖像文本對 (U,V)的相似度由正面作用和負面作用共同決定： $V)=\frac{1}{m} \sum_{i=1}^{m}\left(s_{i}^{\text {neg }}+s_{i}^{\text {pos }}\right)$

4.3、采樣和更新策略

對于對齊的單詞，在正確的圖像中至少有一個匹配區域。因此對單詞

u_i

，圖像區域{

v^+_j

}

^n_{j＝1}

之間的最大相似性進行采樣：

s_{i}^{+}=\max _{j}\left(\left\{v_{j}^{+} u_{i}^{\mathrm{T}} /\left(\left\|v_{j}^{+}\right\|\left\|u_{i}\right\|\right)\right\}_{j=1}^{n}\right)

。

對于未對齊的單詞，不正確圖像中的所有區域都與其不匹配。因此對單詞

u_i

，圖像區域{

v^+_j

}

^n_{j＝1}

，對其采樣為：

s_{i}^{-}=\max _{j}\left(\left\{v_{j}^{-} u_{i}^{\mathrm{T}} /\left(\left\|v_{j}^{-}\right\|\left\|u_{i}\right\|\right)\right\}_{j=1}^{n}\right),

此外，為了對精確的偽詞區域相似性標簽進行采樣，作者基于計算的相似度排名的正確性設計來決定是否更新 $s^+_i$ 和 $s^?_i$ 。

4.4、損失函數

本文中用于端到端訓練的目標函數是雙向三元組排序損失,損失函數如下：

$L=\sum_{(U, V)}\left[\gamma-S(U, V)+S\left(U, V^{\prime}\right)\right]_{+}+\left[\gamma-S(U, V)+S\left(U^{\prime}, V\right)\right]_{+}$

其中： (U, V )表示成功匹配的圖像和匹配的文本，(U, V′)和(U′, V )表示未成功匹配的圖像和文本。

五、實驗

5.1、實驗設置

1??數據集：Flickr30K總共有31000張圖片和155000個句子，其被分成1000張測試圖像、1000張驗證圖像和29000張訓練圖像。MS-COCO包含123287張圖像和616435個句子，將其分為5000張測試圖像、5000張驗證圖像和113287張訓練圖像。

2??評估指標：Recall(R@K，K＝1，5，10）和rSum。R@K表示檢索到的前K個列表中的地面真相的百分比。rSum是所有R@K在圖像到文本和文本到圖像中，反映了整體匹配性能。

3??實現細節：顯卡為RTX 3090Ti GPU，優化器為Adam，初始學習率為0.0005，每10個周期衰減10%。Flickr30K和MSCOCO的最小批量大小分別設置為128和256，兩個數據集上都有20個epoches，特征尺寸d被設置為1024。λ設置為20，α設置為2.0，γ設置0.2。