當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记 | Counterfactual Samples Synthesizing for Robust VQA

發(fā)布時間：2024/7/5 编程问答 65 豆豆

生活随笔收集整理的這篇文章主要介紹了论文笔记 | Counterfactual Samples Synthesizing for Robust VQA 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

論文筆記整理：竇春柳，天津大學碩士。

來源：CVPR 2020

鏈接：

https://openaccess.thecvf.com/content_CVPR_2020/papers/Chen_Counterfactual_Samples_Synthesizing_for_Robust_Visual_Question_Answering_CVPR_2020_paper.pdf

動機

當今的VQA模型傾向于捕獲訓練集中的表層語言相關性，而不能推廣到具有不同QA分布的測試集中。為了減少語言偏見，最近的一些工作引入了一個輔助的僅問題模型，以規(guī)范化目標VQA模型的訓練，并在VQA-CP上實現(xiàn)主導性能。但是，由于設計的復雜性，當前的方法無法為基于集成模型的模型配備理想VQA模型的兩個必不可少的特征：1）視覺可解釋的：模型在做出決策時應依賴正確的視覺區(qū)域。2）對問題敏感：該模型應對所討論的語言變化敏感。為此，本文提出了一種與模型無關的反事實樣本合成（CSS）訓練方案。

亮點

作者提出了與模型無關的反事實樣本合成（CSS）訓練方案，可以有效提高模型的視覺可解釋性和問題敏感度。為避免昂貴的人工注釋，設計了一種動態(tài)答案分配機制，以近似所有合成VQ對的真實答案。

概念及模型

目前將VQA任務是當做一個多類別的分類任務，不失一般性，給定一個數(shù)據(jù)集，三元組，圖片,問題和答案,VQA任務學習映射,對于給定的圖片-問題對給出答案分布。

本文提出的是一個通用的方法，可以和現(xiàn)有的VQA方法進行融合，通過在訓練過程中對數(shù)據(jù)進行mask，提高模型的效果。對于每個訓練樣本(I,Q,a)，具體的訓練步驟如下所示：

（1）以初始的三元組訓練模型

（2）通過V-CSS合成反事實樣本和Q-CSS反事實樣本.

（3）用反事實樣本訓練模型

lV-CSS

根據(jù)算法2中顯示，V-CSS包含個步驟：初始化對象的選擇,對象局部貢獻的計算，重要對象的選擇，動態(tài)分配答案。

（1）初始化對象的選擇：

由于圖片中的對象只有一小部分跟問題是相關，所以需要選擇出與圖片有關系的一個小的對象集合I,想法就是首先用SpaCy POS標簽給問題中每個單詞一個標簽，從中選擇出名詞，計算對象類型與名詞的cosine相似度，選擇出其中相似度最高的作為集合I。

（2）對象局部貢獻的計算：

得到對象集合后，計算那個對象對于回答問題更有作用，利用修改的Grad-CAM來獲得哪個對象的的貢獻最大。

（3）重要對象的選擇：

計算完集合內所有對象的貢獻后，選擇其中貢獻最大的K個(score最高的K個)，K由以下公式?jīng)Q定：

其中是一個常數(shù)。然后是的絕對補集。

（4）動態(tài)分配答案

對于反事實視覺輸入和原始問題輸入Q構成新的問題視覺對，為了分配正確的答案，首先將輸入到VQA模型內，然后得到,根據(jù)選擇概率值最高的K個答案為集合。然后將剩余的作為,最極端的情況就是包含所有的正確答案，則內不包含正確答案，相當于一個空集。這個方法的動機就是可以正確預測答案，則就不應該再包含原本問題中的正確答案了。

lQ-CSS

Q-CSS包含三步，計算每個單詞的貢獻，選擇其中最重要的單詞，動態(tài)地分配答案。

（1）計算每個單詞的貢獻：

以下公式計算每個單詞的貢獻率：

?（2）選擇其中最重要的單詞：

首先提取能夠代表每個問題類型的單詞，然后選擇K個除了問題類型單詞的分數(shù)最高的單詞當做最重要的單詞，然后將重要的單詞替換成'[mask]'后得到。而就是將除了類型單詞和重要單詞以外的單詞替換成[mask]，

（3）動態(tài)地分配答案：

與V-CSS這一步驟相同，這一步驟DA_ASS的輸入是。

理論分析

實驗

首先是消融實驗，集合I的大小、關鍵字的個數(shù)、參數(shù)的大小。

在VQA-CP v2測試集上，多個模型添加本文方法得到的提升如下圖所示。其中，Baseline是原文中的結果，Baseline+是本文作者重現(xiàn)的結果。

總結

在本文中，我們提出了一種與模型無關的反事實樣本合成（CSS）訓練方案，以提高模型的視覺可解釋性和對問題敏感的能力。CSS通過掩蓋關鍵對象或單詞來生成反事實訓練樣本。同時，CSS可以持續(xù)提高不同VQA模型的性能。

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián)，促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文，進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文笔记 | Counterfactual Samples Synthesizing for Robust VQA的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文小综 | Attention in
下一篇：论文浅尝 - ESWA | 知识图谱的自

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

论文笔记 | Counterfactual Samples Synthesizing for Robust VQA

動機

亮點

概念及模型

理論分析

實驗

總結

總結