日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记 | Counterfactual Samples Synthesizing for Robust VQA

發(fā)布時(shí)間:2024/7/5 编程问答 54 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文笔记 | Counterfactual Samples Synthesizing for Robust VQA 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文筆記整理:竇春柳,天津大學(xué)碩士。



來源:CVPR 2020

鏈接:

https://openaccess.thecvf.com/content_CVPR_2020/papers/Chen_Counterfactual_Samples_Synthesizing_for_Robust_Visual_Question_Answering_CVPR_2020_paper.pdf


動(dòng)機(jī)

當(dāng)今的VQA模型傾向于捕獲訓(xùn)練集中的表層語言相關(guān)性,而不能推廣到具有不同QA分布的測(cè)試集中。為了減少語言偏見,最近的一些工作引入了一個(gè)輔助的僅問題模型,以規(guī)范化目標(biāo)VQA模型的訓(xùn)練,并在VQA-CP上實(shí)現(xiàn)主導(dǎo)性能。但是,由于設(shè)計(jì)的復(fù)雜性,當(dāng)前的方法無法為基于集成模型的模型配備理想VQA模型的兩個(gè)必不可少的特征:1)視覺可解釋的:模型在做出決策時(shí)應(yīng)依賴正確的視覺區(qū)域。2)對(duì)問題敏感:該模型應(yīng)對(duì)所討論的語言變化敏感。為此,本文提出了一種與模型無關(guān)的反事實(shí)樣本合成(CSS)訓(xùn)練方案。


亮點(diǎn)

作者提出了與模型無關(guān)的反事實(shí)樣本合成(CSS)訓(xùn)練方案,可以有效提高模型的視覺可解釋性和問題敏感度。為避免昂貴的人工注釋,設(shè)計(jì)了一種動(dòng)態(tài)答案分配機(jī)制,以近似所有合成VQ對(duì)的真實(shí)答案。

概念及模型

目前將VQA任務(wù)是當(dāng)做一個(gè)多類別的分類任務(wù),不失一般性,給定一個(gè)數(shù)據(jù)集,三元組,圖片,問題和答案,VQA任務(wù)學(xué)習(xí)映射,對(duì)于給定的圖片-問題對(duì)給出答案分布。

本文提出的是一個(gè)通用的方法,可以和現(xiàn)有的VQA方法進(jìn)行融合,通過在訓(xùn)練過程中對(duì)數(shù)據(jù)進(jìn)行mask,提高模型的效果。對(duì)于每個(gè)訓(xùn)練樣本(I,Q,a),具體的訓(xùn)練步驟如下所示:

(1)以初始的三元組訓(xùn)練模型

(2)通過V-CSS合成反事實(shí)樣本和Q-CSS反事實(shí)樣本.

(3)用反事實(shí)樣本訓(xùn)練模型

lV-CSS

根據(jù)算法2中顯示,V-CSS包含個(gè)步驟:初始化對(duì)象的選擇,對(duì)象局部貢獻(xiàn)的計(jì)算,重要對(duì)象的選擇,動(dòng)態(tài)分配答案。

(1)初始化對(duì)象的選擇:

由于圖片中的對(duì)象只有一小部分跟問題是相關(guān),所以需要選擇出與圖片有關(guān)系的一個(gè)小的對(duì)象集合I,想法就是首先用SpaCy POS標(biāo)簽給問題中每個(gè)單詞一個(gè)標(biāo)簽,從中選擇出名詞,計(jì)算對(duì)象類型與名詞的cosine相似度,選擇出其中相似度最高的作為集合I。

(2)對(duì)象局部貢獻(xiàn)的計(jì)算:

得到對(duì)象集合后,計(jì)算那個(gè)對(duì)象對(duì)于回答問題更有作用,利用修改的Grad-CAM來獲得哪個(gè)對(duì)象的的貢獻(xiàn)最大。

(3)重要對(duì)象的選擇:

計(jì)算完集合內(nèi)所有對(duì)象的貢獻(xiàn)后,選擇其中貢獻(xiàn)最大的K個(gè)(score最高的K個(gè)),K由以下公式?jīng)Q定:

其中是一個(gè)常數(shù)。然后是的絕對(duì)補(bǔ)集。

(4)動(dòng)態(tài)分配答案

對(duì)于反事實(shí)視覺輸入和原始問題輸入Q構(gòu)成新的問題視覺對(duì),為了分配正確的答案,首先將輸入到VQA模型內(nèi),然后得到,根據(jù)選擇概率值最高的K個(gè)答案為集合。然后將剩余的作為,最極端的情況就是包含所有的正確答案,則內(nèi)不包含正確答案,相當(dāng)于一個(gè)空集。這個(gè)方法的動(dòng)機(jī)就是可以正確預(yù)測(cè)答案,則就不應(yīng)該再包含原本問題中的正確答案了。

lQ-CSS

Q-CSS包含三步,計(jì)算每個(gè)單詞的貢獻(xiàn),選擇其中最重要的單詞,動(dòng)態(tài)地分配答案。

(1)計(jì)算每個(gè)單詞的貢獻(xiàn):

以下公式計(jì)算每個(gè)單詞的貢獻(xiàn)率:

?(2)選擇其中最重要的單詞:

首先提取能夠代表每個(gè)問題類型的單詞,然后選擇K個(gè)除了問題類型單詞的分?jǐn)?shù)最高的單詞當(dāng)做最重要的單詞,然后將重要的單詞替換成'[mask]'后得到。而就是將除了類型單詞和重要單詞以外的單詞替換成[mask],

(3)動(dòng)態(tài)地分配答案:

與V-CSS這一步驟相同,這一步驟DA_ASS的輸入是。

理論分析

實(shí)驗(yàn)

首先是消融實(shí)驗(yàn),集合I的大小、關(guān)鍵字的個(gè)數(shù)、參數(shù)的大小。

在VQA-CP v2測(cè)試集上,多個(gè)模型添加本文方法得到的提升如下圖所示。其中,Baseline是原文中的結(jié)果,Baseline+是本文作者重現(xiàn)的結(jié)果。

總結(jié)

在本文中,我們提出了一種與模型無關(guān)的反事實(shí)樣本合成(CSS)訓(xùn)練方案,以提高模型的視覺可解釋性和對(duì)問題敏感的能力。CSS通過掩蓋關(guān)鍵對(duì)象或單詞來生成反事實(shí)訓(xùn)練樣本。同時(shí),CSS可以持續(xù)提高不同VQA模型的性能。

?


?

OpenKG

開放知識(shí)圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文笔记 | Counterfactual Samples Synthesizing for Robust VQA的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。