论文笔记 | Counterfactual Samples Synthesizing for Robust VQA
論文筆記整理:竇春柳,天津大學(xué)碩士。
來源:CVPR 2020
鏈接:
https://openaccess.thecvf.com/content_CVPR_2020/papers/Chen_Counterfactual_Samples_Synthesizing_for_Robust_Visual_Question_Answering_CVPR_2020_paper.pdf
動(dòng)機(jī)
當(dāng)今的VQA模型傾向于捕獲訓(xùn)練集中的表層語言相關(guān)性,而不能推廣到具有不同QA分布的測(cè)試集中。為了減少語言偏見,最近的一些工作引入了一個(gè)輔助的僅問題模型,以規(guī)范化目標(biāo)VQA模型的訓(xùn)練,并在VQA-CP上實(shí)現(xiàn)主導(dǎo)性能。但是,由于設(shè)計(jì)的復(fù)雜性,當(dāng)前的方法無法為基于集成模型的模型配備理想VQA模型的兩個(gè)必不可少的特征:1)視覺可解釋的:模型在做出決策時(shí)應(yīng)依賴正確的視覺區(qū)域。2)對(duì)問題敏感:該模型應(yīng)對(duì)所討論的語言變化敏感。為此,本文提出了一種與模型無關(guān)的反事實(shí)樣本合成(CSS)訓(xùn)練方案。
亮點(diǎn)
作者提出了與模型無關(guān)的反事實(shí)樣本合成(CSS)訓(xùn)練方案,可以有效提高模型的視覺可解釋性和問題敏感度。為避免昂貴的人工注釋,設(shè)計(jì)了一種動(dòng)態(tài)答案分配機(jī)制,以近似所有合成VQ對(duì)的真實(shí)答案。
概念及模型
目前將VQA任務(wù)是當(dāng)做一個(gè)多類別的分類任務(wù),不失一般性,給定一個(gè)數(shù)據(jù)集,三元組,圖片,問題和答案,VQA任務(wù)學(xué)習(xí)映射,對(duì)于給定的圖片-問題對(duì)給出答案分布。
本文提出的是一個(gè)通用的方法,可以和現(xiàn)有的VQA方法進(jìn)行融合,通過在訓(xùn)練過程中對(duì)數(shù)據(jù)進(jìn)行mask,提高模型的效果。對(duì)于每個(gè)訓(xùn)練樣本(I,Q,a),具體的訓(xùn)練步驟如下所示:
(1)以初始的三元組訓(xùn)練模型
(2)通過V-CSS合成反事實(shí)樣本和Q-CSS反事實(shí)樣本.
(3)用反事實(shí)樣本訓(xùn)練模型
lV-CSS
根據(jù)算法2中顯示,V-CSS包含個(gè)步驟:初始化對(duì)象的選擇,對(duì)象局部貢獻(xiàn)的計(jì)算,重要對(duì)象的選擇,動(dòng)態(tài)分配答案。
(1)初始化對(duì)象的選擇:
由于圖片中的對(duì)象只有一小部分跟問題是相關(guān),所以需要選擇出與圖片有關(guān)系的一個(gè)小的對(duì)象集合I,想法就是首先用SpaCy POS標(biāo)簽給問題中每個(gè)單詞一個(gè)標(biāo)簽,從中選擇出名詞,計(jì)算對(duì)象類型與名詞的cosine相似度,選擇出其中相似度最高的作為集合I。
(2)對(duì)象局部貢獻(xiàn)的計(jì)算:
得到對(duì)象集合后,計(jì)算那個(gè)對(duì)象對(duì)于回答問題更有作用,利用修改的Grad-CAM來獲得哪個(gè)對(duì)象的的貢獻(xiàn)最大。
(3)重要對(duì)象的選擇:
計(jì)算完集合內(nèi)所有對(duì)象的貢獻(xiàn)后,選擇其中貢獻(xiàn)最大的K個(gè)(score最高的K個(gè)),K由以下公式?jīng)Q定:
其中是一個(gè)常數(shù)。然后是的絕對(duì)補(bǔ)集。
(4)動(dòng)態(tài)分配答案
對(duì)于反事實(shí)視覺輸入和原始問題輸入Q構(gòu)成新的問題視覺對(duì),為了分配正確的答案,首先將輸入到VQA模型內(nèi),然后得到,根據(jù)選擇概率值最高的K個(gè)答案為集合。然后將剩余的作為,最極端的情況就是包含所有的正確答案,則內(nèi)不包含正確答案,相當(dāng)于一個(gè)空集。這個(gè)方法的動(dòng)機(jī)就是可以正確預(yù)測(cè)答案,則就不應(yīng)該再包含原本問題中的正確答案了。
lQ-CSS
Q-CSS包含三步,計(jì)算每個(gè)單詞的貢獻(xiàn),選擇其中最重要的單詞,動(dòng)態(tài)地分配答案。
(1)計(jì)算每個(gè)單詞的貢獻(xiàn):
以下公式計(jì)算每個(gè)單詞的貢獻(xiàn)率:
?(2)選擇其中最重要的單詞:
首先提取能夠代表每個(gè)問題類型的單詞,然后選擇K個(gè)除了問題類型單詞的分?jǐn)?shù)最高的單詞當(dāng)做最重要的單詞,然后將重要的單詞替換成'[mask]'后得到。而就是將除了類型單詞和重要單詞以外的單詞替換成[mask],
(3)動(dòng)態(tài)地分配答案:
與V-CSS這一步驟相同,這一步驟DA_ASS的輸入是。
理論分析
實(shí)驗(yàn)
首先是消融實(shí)驗(yàn),集合I的大小、關(guān)鍵字的個(gè)數(shù)、參數(shù)的大小。
在VQA-CP v2測(cè)試集上,多個(gè)模型添加本文方法得到的提升如下圖所示。其中,Baseline是原文中的結(jié)果,Baseline+是本文作者重現(xiàn)的結(jié)果。
總結(jié)
在本文中,我們提出了一種與模型無關(guān)的反事實(shí)樣本合成(CSS)訓(xùn)練方案,以提高模型的視覺可解釋性和對(duì)問題敏感的能力。CSS通過掩蓋關(guān)鍵對(duì)象或單詞來生成反事實(shí)訓(xùn)練樣本。同時(shí),CSS可以持續(xù)提高不同VQA模型的性能。
?
?
OpenKG
開放知識(shí)圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文笔记 | Counterfactual Samples Synthesizing for Robust VQA的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文小综 | Attention in
- 下一篇: 论文浅尝 - ESWA | 知识图谱的自