日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2020年, VQA论文汇总

發布時間:2025/3/15 编程问答 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2020年, VQA论文汇总 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • CVPR2020:CSS
  • AAAI2020:OLP
  • TMM2020:SANMT
  • ACL2020: CMR
  • CVPR2020:

CVPR2020:CSS

  • 題目
    Counterfactual Samples Synthesizing for Robust Visual Question Answering
    下載鏈接
    本文出自浙江大學DCD實驗室。
  • 動機
    由于測試集和訓練集的QA分布不同,會造成language bias。為應對這個現象,作者認為,訓練好的模型應具有兩個能力:(1)visual-explainable,在生成answer的時候,應該更多的依賴image中正確的區域。(2)question-sensitive,模型應該能意識到question的變化。
  • 貢獻
    提出了CSS訓練方法,提高模型的visual-explainable和question-sensitive能力,并可以在VQA-CP上的performance。
  • 方法
    本文提出的是一個通用的方法,可以和現有的VQA方法進行融合,通過在訓練過程中對數據進行mask,提高模型的效果。對于每個訓練樣本(I,Q,a)(I, Q, a)(I,Q,a),具體的訓練步驟如下所示:
    1.使用原始的樣本(I,Q,a)(I, Q, a)(I,Q,a)訓練模型;
    2.使用V-CSS或Q-CSS生成反事實樣本(I?,Q,a?)(I^-, Q, a^-)(I?,Q,a?)(I,Q?,a?)(I, Q^-, a^-)(I,Q?,a?)
    3.使用反事實樣本訓練模型。

    進行V-CSS的步驟如下(算法2中5-8行):
    1.初始化幾個object作為候選,這部分follow了這篇文章(NeurIPS 2019)。
    2.計算每個object的contribution,這部分follow這三篇文章:一(NAACL 2019)、二(ICCV 2019)、三(NeruIPS 2019),使用的計算公式如下:
    s(a,vi)=S(Pvqa(a),vi):=(?viPvqa)T1s(a, v_i)=S(P_{vqa}(a),v_i):=(\nabla _{v_i}P_{vqa})^T1s(a,vi?)=S(Pvqa?(a),vi?):=(?vi??Pvqa?)T1 3.選擇top-K個重要的objects,將它們mask得到I?I^-I?,將其他的objects mask后得到的稱為I+I^+I+。
    4.為I?I^-I?生成對應的標簽a?a^-a?(下文中算法3)

    進行Q-CSS的步驟如下(算法2中11-13行):
    1.計算每個word的contribution,這部分和V-CSS的第2步類似。
    2.提取出question-type words(what color is the kite中的“what”、“color”),在余下的word中選出top-K個重要words(如“kite”),將它們mask后得到Q?Q^-Q?。
    3.為Q?Q^-Q?生成對應的標簽a?a^-a?(下文中算法3)

    V-CSS和Q-CSS中的最后一步:

    關于I+,I?,Q+,Q?I^+, I^-, Q^+, Q^-I+,I?,Q+,Q?的展示:
  • 實驗
    在VQA-CP v2測試集上,多個模型添加本文方法得到的提升如下圖所示。其中,Baseline是原文中的結果,Baseline+是本文作者重現的結果。

    和state-of-the-art的對比:

    下面是實驗結果展示,綠色的boxes(or 綠色加粗字體)代表重要區域。

AAAI2020:OLP

  • 題目
    Overcoming Language Priors in VQA via Decomposed Linguistic Representations
    下載鏈接
    出自北理北京智能信息技術實驗室和阿里文娛摩酷實驗室
    模型名稱OLP我自己起的,文中沒給出模型名稱。
  • 動機
    動機都寫在題目里啦,即:克服VQA中的Language Priors問題。何為Language Priors?在VQA領域中,會出現這類問題:詢問關于“顏色”的question時,?;卮稹鞍咨?#xff1b;詢問關于“運動”的question時,?;卮稹熬W球”;對于“yes/no”類問題,常回答“yes”。這是因為模型在訓練時找到了“捷徑”,回答“白色”、“網球”和“yes”比回答“黑色”、“籃球”和“no”的正確率要高。這便是Language Priors。
  • 貢獻
  • 將question進行分解,降低了language prior的影響。
  • 將soft attention和hard attention結合,實現了從question中靈活分離concept representation和type representation。
    • 方法
      本文的整體框架如下圖所示,圖(a)和圖(b)代表在兩種不同type的question下的方法。從圖中可以看出,本文主要包括四個模塊:Language Attention Module、Question Identification Module、Object Referring Module和Visual Verfication Module,下面對這四個模塊分別進行介紹。

      首先介紹Language Attention Module,這個模塊的結構如下圖所示,用于將question分解為type representation qtypeq_{type}qtype?、object representation qobjq_{obj}qobj?和concept representation qconq_{con}qcon?。其中,qtypeq_{type}qtype?用于判斷question的type,并作為Question Identification Module的輸入。在本文中,question共分為兩種類型:yes/no,not yes/no。qobjq_{obj}qobj?作為Object Referring Module的輸入,用于capture圖片中和question相關的區域。Visual Verification Module接收qconq_{con}qcon?(只有在"yes/no"類問題時,才接收qconq_{con}qcon?,因為"not yes/no"類問題中,qconq_{con}qcon?包含在answer中,而非question中)、Question Identification Module的輸出和Object Referring Module的輸出作為輸入,生成answer。

      對于給定的Word Embeddings,先使用Type Attention對每個單詞添加注意力,使用閾值過濾掉一部分單詞(疑問詞)。使用提取出的疑問詞得到qtypeq_{type}qtype?,將剩下的單詞添加Object Attention和Concept Attention,得到qobjq_{obj}qobj?qconq_{con}qcon?。

      對于"yes/no"類問題,answer set應該只包含兩個元素{yes, no}。對于"not yes/no"類問題,需要處理出answer set。處理的方法是:生成一個mask(由0、1組成),使用KL散度訓練mask,使其接近ground truth mask。

      Object Referring Module部分的方法follow了這篇文章(CVPR 2018)。

      Visual Verification Module的任務是:根據從answer set中選出最正確的answer。在訓練時,對于"yes/no"問題,使用交叉熵損失;對于"not yes/no"問題,使用KL散度計算損失。
    • 實驗
      實驗結果

      閾值對實驗結果的影響

      消融實驗

      實驗結果展示

    TMM2020:SANMT

    • 題目
      Self-Adaptive Neural Module Transformer for Visual Question Answering
      下載鏈接
      出自張含望老師實驗室。
    • 動機
    • 貢獻
    • 方法
    • 實驗

    ACL2020: CMR

    • 題目
      Cross-Modality Relevance for Reasoning on Language and Vision
      介紹詳見這篇博客

    CVPR2020:

    • 題目

    下載鏈接

    • 動機
    • 貢獻
    • 方法
    • 實驗

    總結

    以上是生活随笔為你收集整理的2020年, VQA论文汇总的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。