Text to image论文精读 NAAF:基于负感知注意力的图像-文本匹配框架 Negative-Aware Attention Framework for Image-Text Matching
NAAF:Negative-Aware Attention Framework for Image-Text Matching是基于負感知注意力的圖文匹配,其利用匹配片段的積極影響和不匹配片段的消極影響來共同推斷圖像-文本的相似性,文章由中國科學技術大學和北京郵電大學學者在2022CVPR上發表。
論文地址:https://ieeexplore.ieee.org/document/9879764
代碼地址:https://github.com/CrossmodalGroup/NAAF.
作者博客地址:https://www.cnblogs.com/lemonzhang/p/16456403.html
注意:這篇論文主要討論的是圖像和文本的匹配,即語義一致性的方法。不是專用于做文本生成圖像的系列論文,本篇文章是閱讀這篇論文的精讀筆記。
一、原文摘要
圖文匹配作為一項基本任務,彌合了視覺和語言之間的鴻溝。這項任務的關鍵是準確測量這兩種模式之間的相似性。先前的工作主要基于匹配的片段(即,具有高相關性的單詞/區域)來測量這種相似性,同時低估甚至忽略了不匹配的片段的影響(即,低相關性的單詞或區域),例如,通過典型的LeaklyReLU或ReLU操作,該操作迫使負分數接近或精確到零。這項工作認為,不匹配的文本片段(包含豐富的不匹配線索)對圖像文本匹配也至關重要。
因此,我們提出了一種新的消極意識注意框架(NAAF),該框架明確地利用匹配片段的積極影響和不匹配片段的消極影響來共同推斷圖像-文本的相似性。NAAF(1)精心設計了一種迭代優化方法,以最大限度地挖掘不匹配的片段,促進更具辨別力和魯棒性的負面影響,(2)設計了雙分支匹配機制,以精確計算具有不同掩碼的匹配/不匹配片段的相似性/不相似性程度。在兩個基準數據集(即Flickr30K和MSCOCO)上進行的大量實驗證明了我們的NAAF的卓越性能,達到了最先進的性能。
二、圖像-文本匹配
圖像文本匹配任務定義:也稱為跨模態圖像文本檢索,即通過某一種模態實例, 在另一模態中檢索語義相關的實例。例如,給定一張圖像,查詢與之語義對應的文本,反之亦然。具體而言,對于任意輸入的文本-圖像對(Image-Text Pair),圖文匹配的目的是衡量圖像和文本之間的語義相似程度(這也是文本生成圖像中很重要的一個點)。
圖片和文字由于模態的異構,存在極大的語義鴻溝。圖文匹配的關鍵挑戰在于準確學習圖片和文本之間的語義對應關系,并度量它們的相似性。在現有的圖像文本匹配方法中有兩種范式:
在局部級匹配的領域,基于注意力的匹配框架最近迅速成為主流,其關鍵思想是通過注意力關注來自另一模態的每個查詢片段的相關片段來發現所有單詞-圖像區域對齊。
三、為什么提出NAAF?
顯然匹配的片段(即,具有高相關性分數的單詞區域對)將對最終的圖像-文本相似性做出很大貢獻,而不匹配片段(即具有低相關性分數的詞區域對)的影響將被削弱甚至消除,例如,通過在注意力過程中迫使負分數接近或精確為零的典型LeakyReLU或ReLU。
現有的很多方法主要尋找匹配的片段,而低估或忽略了不匹配片段的影響,完全忽略了不匹配的文本片段在證明圖像文本不匹配中的關鍵作用,將不可避免地容易產生假陽性匹配:
假陽性匹配:
包含許多匹配片段但有一些不匹配的文本片段的圖像-文本對(直接表明圖像-文本不匹配)仍然可以獲得高相似度,并且可以正確地排在最前面,這肯定不是一個令人滿意的結果,比如說下例兩個男孩在一些樹旁的路上踢足球:現有的方法主要尋找匹配的片段,例如“男孩”、“樹”,以計算圖像-文本(I-T)相似性,而不匹配的片段(例如“足球”)的影響被典型的LeaklyReLU或ReLU削弱或忽略,顯然這并不是一個很優秀的匹配,但是由于他在大部分關鍵詞上匹配得分高,其匹配結果會非常靠前,這就屬于假陽性。
其主要集中于最大化匹配(即對齊)片段的效果,而低估或忽略了不匹配片段的線索作用。而合理的匹配框架應該同時考慮兩個方面,即圖像文本對的總體匹配分數不僅由匹配片段的積極影響決定,而且由不匹配片段的消極影響決定。可以充分的挖掘非對齊片段的負面作用,使原本檢索在Top位置的錯誤匹配降低相似分值,對圖像匹配度進行減分,如下圖所示,就可以很容易消除假陽性。
因此,作者提出了一種新的負感知注意力框架,該框架首次明確考慮了正匹配和負不匹配的片段,以聯合測量圖像-文本的相似性。與片面關注匹配片段的傳統匹配機制不同,該注意力框架可以有效地挖掘不匹配的文本片段,以進一步利用這兩種類型的線索進行聯合相似性推斷。并使用它們準確地反映兩種模式之間的差異。消極感知注意框架NAAF由兩個模塊組成:
四、NAAF
NAAF的總體框架如圖所示,可以看到,首先Feature Extraction提取圖像特征和文本特征(這里不再展開),然后Negative-aware Attntion使用負效應和正效應進行負意識注意以測量圖像和文本的相似性,其包括兩個主要模塊,用于顯式地利用負不匹配和正匹配的文本片段來聯合推斷圖像-文本相似性。1.不匹配挖掘模塊使失配線索產生更穩健的負面影響。2.正負雙分支匹配模塊精確計算兩種類型片段的正面和負面影響,從而測量總體相似性。
4.1、特征提取
- 視覺表征:給定圖像V,利用Visual Genome 預訓練的FasterRCNN檢測顯著對象和其他區域。然后,通過預訓練的ResNet-101過平均池卷積特征提取檢測區域。采用全連接層將每個區域映射到1024維特征。
- 文本表征:給定由m個單詞組成的文本U,我們將每個單詞熱編碼為1024維向量,并嵌入預先訓練的GloVe向量中,然后,向量被饋送到雙向門控循環單元(BiGRU)中,以整合前向和后向上下文信息。最終的單詞表示 u i u_i ui?是雙向隱藏狀態的平均值。
4.2、Negative-aware Attntion
給定一個圖像-文本對,它可能包含豐富的匹配和不匹配片段。本模塊的目標就是充分利用這兩類線索,以實現更準確的匹配性能。在NAAF框架中主要有兩個模塊:
1??:不匹配挖掘模塊
不匹配挖掘模塊期望顯式地和自適應地建模失配和匹配片段的相似性分布,旨在最大限度地分離它們,以實現有效的不匹配片段挖掘。
為此,在訓練過程中,對于不匹配和匹配的單詞區域片段對,首先對它們的相似度進行采樣:
S k ? = [ s 1 ? , s 2 ? , s 3 ? , … , s i ? , … ] S k + = [ s 1 + , s 2 + , s 3 + , … , s i + , … ] \begin{aligned} S_{k}^{-} &=\left[s_{1}^{-}, s_{2}^{-}, s_{3}^{-}, \ldots, s_{i}^{-}, \ldots\right] \\ S_{k}^{+} &=\left[s_{1}^{+}, s_{2}^{+}, s_{3}^{+}, \ldots, s_{i}^{+}, \ldots\right] \end{aligned} Sk??Sk+??=[s1??,s2??,s3??,…,si??,…]=[s1+?,s2+?,s3+?,…,si+?,…]?
其中S-表示不匹配區域-單詞的相似度分數,S+表示匹配區域-單詞的相似度分數。
基于構造出的兩個集合,可以分別建立匹配片段和不匹配片段的相似度分數s的概率分布模型:
分布模型公式表示為: f k ? ( s ) = 1 σ k ? 2 π e [ ? ( s ? μ k ? ) 2 2 ( σ k ? ) 2 ] , f k + ( s ) = 1 σ k + 2 π e [ ? ( s ? μ k + ) 2 2 ( σ k + ) 2 ] f_{k}^{-}(s)=\frac{1}{\sigma_{k}^{-} \sqrt{2 \pi}} e^{\left[-\frac{\left(s-\mu_{k}^{-}\right)^{2}}{2\left(\sigma_{k}^{-}\right)^{2}}\right]}, f_{k}^{+}(s)=\frac{1}{\sigma_{k}^{+} \sqrt{2 \pi}} e^{\left[-\frac{\left(s-\mu_{k}^{+}\right)^{2}}{2\left(\sigma_{k}^{+}\right)^{2}}\right]} fk??(s)=σk??2π?1?e[?2(σk??)2(s?μk??)2?],fk+?(s)=σk+?2π?1?e[?2(σk+?)2(s?μk+?)2?]
其中(μ?k,σ?k)和(μ+k,σ+k)分別是兩種分布的平均值和標準差:
分別得到兩個相似度分布建模后,可以用一個顯式的邊界t在匹配片段和不匹配片段之間進行區分,如圖所示,相似度分數大于 t k t_k tk?的區域-單詞對被視為匹配片段,反之則為不匹配片段,但是不可避免的就會出現兩種誤判:將實際上不匹配的片段區分為匹配的 和 將實際上匹配的片段誤認為是不匹配的。而此模塊的目的是最大限度的挖掘出不匹配片段,找出一個最優的邊界t,使得區分錯誤的概率最低,保證識別的準確性,即解決如下優化問題:
min ? t α ∫ t + ∞ f k ? ( s ) d s + ∫ ? ∞ t f k + ( s ) d s , s.t.? t ≥ 0 \begin{array}{ll} \min _{t} & \alpha \int_{t}^{+\infty} f_{k}^{-}(s) d s+\int_{-\infty}^{t} f_{k}^{+}(s) d s, \\ \text { s.t. } & t \geq 0 \end{array} mint??s.t.??α∫t+∞?fk??(s)ds+∫?∞t?fk+?(s)ds,t≥0?
其中t是該問題的決策變量,α是懲罰參數。
對于該問題的最優解求解,我們首先搜索它的一階導數的零點,并根據可行域的約束條件在(t ≥ 0)處截斷,得到最優解為:
t k = [ ( ( β 2 k 2 ? 4 β 1 k β 3 k ) 1 2 ? β 2 k ) / ( 2 β 1 k ) ] + 其中 β 1 k = ( σ k + ) 2 ? ( σ k ? ) 2 , β 2 k = 2 ( μ k + σ k ? 2 ? μ k ? σ k + 2 ) , β 3 k = ( σ k + μ k ? ) 2 ? ( σ k ? μ k + ) 2 + 2 ( σ k + σ k ? ) 2 ln ? σ k ? α σ k + . \begin{array}{c} t_{k}=\left[\left(\left(\beta_{2}^{k^{2}}-4 \beta_{1}^{k} \beta_{3}^{k}\right)^{\frac{1}{2}}-\beta_{2}^{k}\right) /\left(2 \beta_{1}^{k}\right)\right]_{+} \\ \text {其中} \beta_{1}^{k}=\left(\sigma_{k}^{+}\right)^{2}-\left(\sigma_{k}^{-}\right)^{2}, \beta_{2}^{k}=2\left(\mu_{k}^{+} \sigma_{k}^{-2}-\mu_{k}^{-} \sigma_{k}^{+2}\right), \text { } \beta_{3}^{k}=\left(\sigma_{k}^{+} \mu_{k}^{-}\right)^{2}-\left(\sigma_{k}^{-} \mu_{k}^{+}\right)^{2}+2\left(\sigma_{k}^{+} \sigma_{k}^{-}\right)^{2} \ln \frac{\sigma_{k}^{-}}{\alpha \sigma_{k}^{+}} . \end{array} tk?=[((β2k2??4β1k?β3k?)21??β2k?)/(2β1k?)]+?其中β1k?=(σk+?)2?(σk??)2,β2k?=2(μk+?σk?2??μk??σk+2?),?β3k?=(σk+?μk??)2?(σk??μk+?)2+2(σk+?σk??)2lnασk+?σk???.?
2??:正負雙分支匹配模塊
雙分支框架可以同時關注圖像-文本對中不匹配和匹配的片段,方法是使用不同的注意力掩碼分別精確測量它們在負注意力和正注意力中的影響。
具體地說,首先計算所有單詞和區域之間的語義相關性得分為:
s i j = u i v j T ∥ u i ∥ ∥ v j ∥ , i ∈ [ 1 , m ] , j ∈ [ 1 , n ] s_{i j}=\frac{u_{i} v_{j}^{\mathrm{T}}}{\left\|u_{i}\right\|\left\|v_{j}\right\|}, i \in[1, m], j \in[1, n] sij?=∥ui?∥∥vj?∥ui?vjT??,i∈[1,m],j∈[1,n],這里原理與AttnGAN中的DAMSM類似。
然后使用不同的注意力掩碼雙線計算:
最終,圖像文本對 (U,V)的相似度由正面作用和負面作用共同決定: S ( U , V ) = 1 m ∑ i = 1 m ( s i neg? + s i pos? ) S(U, V)=\frac{1}{m} \sum_{i=1}^{m}\left(s_{i}^{\text {neg }}+s_{i}^{\text {pos }}\right) S(U,V)=m1?∑i=1m?(sineg??+sipos??)
4.3、采樣和更新策略
此外,為了對精確的偽詞區域相似性標簽進行采樣,作者基于計算的相似度排名的正確性設計來決定是否更新 s i + s^+_i si+?和 s i ? s^?_i si??。
4.4、損失函數
本文中用于端到端訓練的目標函數是雙向三元組排序損失,損失函數如下:
L = ∑ ( U , V ) [ γ ? S ( U , V ) + S ( U , V ′ ) ] + + [ γ ? S ( U , V ) + S ( U ′ , V ) ] + L=\sum_{(U, V)}\left[\gamma-S(U, V)+S\left(U, V^{\prime}\right)\right]_{+}+\left[\gamma-S(U, V)+S\left(U^{\prime}, V\right)\right]_{+} L=∑(U,V)?[γ?S(U,V)+S(U,V′)]+?+[γ?S(U,V)+S(U′,V)]+?
其中: (U, V )表示成功匹配的圖像和匹配的文本,(U, V′)和(U′, V )表示未成功匹配的圖像和文本。
五、實驗
5.1、實驗設置
1??數據集:Flickr30K總共有31000張圖片和155000個句子,其被分成1000張測試圖像、1000張驗證圖像和29000張訓練圖像。MS-COCO包含123287張圖像和616435個句子,將其分為5000張測試圖像、5000張驗證圖像和113287張訓練圖像。
2??評估指標:Recall(R@K,K=1,5,10)和rSum。R@K表示檢索到的前K個列表中的地面真相的百分比。rSum是所有R@K在圖像到文本和文本到圖像中,反映了整體匹配性能。
3??實現細節:顯卡為RTX 3090Ti GPU,優化器為Adam,初始學習率為0.0005,每10個周期衰減10%。Flickr30K和MSCOCO的最小批量大小分別設置為128和256,兩個數據集上都有20個epoches,特征尺寸d被設置為1024。λ設置為20,α設置為2.0,γ設置0.2。
5.2、實驗結果
定量指標:
可視化最優閾值學習過程:
不匹配線索挖掘對比(藍色為不匹配):
六、總結
這項工作的主要貢獻總結如下。
1) 提出了一種新穎的雙分支匹配模塊,該模塊聯合利用不匹配和匹配的文本片段進行精確的圖像文本匹配。與傳統的關注不同,該方法可以同時關注失配和匹配片段,以明確地利用它們的負面和正面影響。雙分支匹配機制能夠分別測量精確的相似度/相異度,以聯合推斷整體圖像-文本相似度。
2) 我們提出了一種新的具有負挖掘策略的迭代優化方法,該方法可以以最大限度地挖掘負面失配片段,明確地驅動不匹配片段的更多負面影響,并從理論上保證挖掘的準確性,產生更全面和可解釋的圖像-文本相似性度量。
3) 在Flickr30K和MS-COCO兩個基準上進行的大量實驗表明,NAAF的表現優于比較方法。分析也充分證明了我們方法的優越性和合理性。
💡 最后
我們已經建立了🏤T2I研學社群,如果你對本文還有其他疑問或者對🎓文本生成圖像/文本生成3D方向很感興趣,可以點擊下方鏈接或者私信我加入社群。
📝 加入社群 抱團學習:中杯可樂多加冰-采苓AI研習社
🔥 限時免費訂閱:文本生成圖像T2I專欄
🎉 支持我:點贊👍+收藏??+留言📝
總結
以上是生活随笔為你收集整理的Text to image论文精读 NAAF:基于负感知注意力的图像-文本匹配框架 Negative-Aware Attention Framework for Image-Text Matching的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win10配置docker环境
- 下一篇: 新兴五只羊床垫,仅次于五星级的睡眠体验!