日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2019年, VQA论文汇总

發布時間:2025/3/15 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2019年, VQA论文汇总 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • CVPR2019:XNMs
  • ICCV2019:Q+I+A(數據集)
  • NeurIPS2019:SCR
  • CVPR2019:Modified QANet
  • CVPR2019:GQA(數據集)
  • CVPR2019:Cycle-Consistency(數據集)
  • ICCV2019:MLIN
  • CVPR2019:It`s not about the Journey
  • CVPR2019:Transfer Learning via Unsupervised Task Discovery
  • ICCV2019:LCGN

CVPR2019:XNMs

  • 題目
    Explainable and Explicit Visual Reasoning over Scene Graphs
    下載鏈接
    南洋理工大學張含望老師小組的工作.
  • 動機
  • 在NMN (神經模塊網絡) 出現之前,針對VQA任務提出的方法都是黑箱的,是連接主義"流派"的,神經網絡會直接基于數據集學到inductive bias,使得模型的結果缺乏可解釋性。NMN在連接主義和符號主義之間"架設"了一座橋梁,使后來的VQA方法具有了可解釋性。但是使用NMN需要仔細設計每個模塊的內部細節,不易拓展。
  • end-to-end的方法容易學得shortcut bias,NMNs將問題顯式第建模為可解釋的模塊,有效的阻止了模型學得shortcut bias。但是,作者發現,NMNs中,視覺模式上還是存在shortcut bias。
    • 貢獻
  • 在CLEVR和CLEVR-CoGent數據集上達到100%準確率.
  • 和現有NMN方法相比, 具有的參數量很少.
  • 泛化能力強.
  • 具有高可解釋性和高顯性.
    • 方法
      本文方法的整體框架如圖所示:

      首先, 對于給定的image進行scene grpah parsing (場景圖解析). 然后, 對于給定的question進行program generation. 最后, 在場景圖上進行reasoning即可. 整個方法的流程看起來很簡單, 而且在實驗部分可以看出, 本文方法十分work, 可以在CLEVR數據集上達到100%的準確率.

      本文在場景圖上預設了四種不同的meta-types, 分別為: ① AttendNode (代表"實體"). ② AttendEdge (代表"實體"之間的"關系"). ③ Transfer (根據"關系"對"實體"進行轉化). ④ Logic (與, 或, 非等邏輯操作). 以上四種操作在文中都有詳細的介紹, 這里不多做解釋.



      Transfer操作如下圖所示:

    • 實驗
      在CLEVR數據集上的實驗結果. XNM-Det表示所有的物體都是使用某種檢測模型得到的, XNM-GT表示所有的物體都是直接使用的Ground-Truth. Program的也有兩種選項, supervised表示使用訓練得到的program generator, GT表示直接使用Ground-Truth. 可以看出, 只要在物體檢測階段足夠給力, 無論使用哪種program generator, 都可以達到很高的準確率.

      從下圖可以看出, 本文方法的收斂速度很快

      下圖是在CLEVR-CoGenT數據集上的結果:

    ICCV2019:Q+I+A(數據集)

    • 題目
      Why Does a Visual Question Have Different Answers?
      下載鏈接
    • 動機
      在VQA任務中,一直存在一個問題:不同的人會對同一個問題做出不同的答案。本文嘗試去分析為什么會造成這個現象。
    • 貢獻
  • 提高數據集制作的質量。
  • 幫助大家分辨模型產生不同答案的原因。
  • 當得到多個答案時,提供一種自動整合多個答案的策略。
    • 方法
      首先,作者提出了9種可能導致不同答案的原因,如下圖所示,分別是:LOW QUALITY IMAGE, DIFFICULT, SYNONYMS, ANSWER NOT PRESENT / GUESSWORK, AMBIGUOUS, GRANULAR, INVALID, SUBJECTIVE, SPAM。

      對于上述的9種原因,又可以歸結為3類,分別為Q(issues with the Question)、I(issues with the Image)、A(issues with the Answer)。作者將Q和I臨時歸為一類,以表格的形式對9種原因進行了分類和解釋。

      作者在VizWiz和VQA_2.0兩個數據集上進行了人工標注。由于不同人對此問題的理解也不同,故使用3個人進行標注。對于下面的圖片,左側是VizWiz數據集,右側是VQA_2.0數據。最內環的圓圈代表僅有一人標注的數據集結果,中間的圓圈代表需要兩個人同意才可以這樣標注,最外環表示三人都同意時才可以這樣標注。可以看出,造成不同答案的主要原因是QI&A。

      接下來,作者又按照9個類別進行了統計,得到如下圖的結果。可以看出,最主要的三個原因是:AMB, SYN, GRN.

      接下來,作者又在兩個數據集上統計了每種情況“單獨發生”or“和其他情況同時發生”的概率,如下圖所示。左側是VizWiz數據集,右側是VQA_2.0數據集。

      接下來,作者提出了用來預測是哪種情況發生的模型,如下圖所示。該模型共預測10個類別,除了上述的9個類別,還有個others類,用來表示上述9類沒涵蓋到的情況。

    • 實驗
      本文的實驗結果如下圖所示。其中,Random表示隨機猜測;QI-Relevance表示預測Q和I之間的相關性,如果預測結果是“相關”,則將LQI、IVE和AMB置為0,其他的置為1;I表示只有I存在問題;Unanswerable表示預測這個問題是否不可回答,若不是,則將LQI、IVE和AMB都置為0,其他的置為1;Q表示只有Q存在問題;Q+I表示Q和I都存在問題;Q+I+A表示Q、I和A都存在問題;Q+I+A_FT表示模型的最后一層使用Fc代替且進行fineTune的結果;Q+I+A_GT表示使用GroundTruth代替Answer Prediction得到的結果。

      可以看出,本文模型對AMB、SYN和GRN原因預測的準確率還是挺高的,且這9類原因基本涵蓋了所有原因。

    NeurIPS2019:SCR

    • 題目
      Self-Critical Reasoning for Robust Visual Question Answering
      下載鏈接
    • 動機
      訓練數據和測試數據的QA distribution不同,導致預測的結果不準確。
    • 貢獻
      本文提出了Self-Critical Reasoning,可以提高與正確answer相關的objects的sensitivity,同時降低模型預測出錯誤answer的概率(通過降低相關objects的sensitivity實現)。
    • 方法
      本文的整體框架如下圖所示:

      接下來,對本文的框架圖進行解釋。從圖中我們可以看出,總共分為三部分:UpDn VQA system(左上部分)、Recognizing and Strengthening Influential Objects(左下部分)、Criticizing Incorrect Dominant Answers(右側部分),下面對這三部分一一介紹。

      第一部分 - UpDn VQA system。大體流程和傳統的UpDn方法一樣,首先,對image提取visual feature;然后,對question提取question feature;最后,將兩類feature輸入answer predictor得到answer。在以上基礎上,本文添加了一個Constructor,用于生成proposal influential objects。作者提到,本文生成的proposal influential objects可能不準確,且含有較多noisy,但是假定其至少包含the most relevant object。文中共提到了3種Constructor,分別是:Construction from Visual ExplanationsConstruction from Textual ExplanationsConstruction from Questions and Answers。前兩種需要數據集提供特定的標簽,最后一種適用于常見的VQA數據。

      第二部分 - Recognizing and Strengthening Influential Objects。這部分通過公式(3)實現,即:通過在損失函數中添加損失項LinflL_{infl}Linfl?最小化非influential objects的sensitivity。下面的公式中,aaa表示answer,viv_ivi?表示第iii個object的features,S(a,vi)S(a,v_i)S(a,vi?)表示answer aaa對第iii個object的sensitivity,SV(a,vi,vj)SV(a,v_i,v_j)SV(a,vi?,vj?)表示第jjj個object比第iii個object高出的sensitivity。



      第三部分 - Criticizing Incorrect Dominant Answers。這部分通過公式(5)實現,即:通過在損失函數中添加損失項LcritL_{crit}Lcrit?最小化incorrect answers對于the most influential object的sensitivity。公式中,v?v^*v?表示the most influential object。


      w(a)=cosine_dist(Glove(agt),Glove(a))w(a)=cosine\_dist(Glove(a_{gt}),Glove(a))w(a)=cosine_dist(Glove(agt?),Glove(a))

      綜上,本文方法在訓練時的損失函數為:
      L=Lvqa+Linfl+λLcritL=L_{vqa}+L_{infl}+\lambda L_{crit}L=Lvqa?+Linfl?+λLcrit?
    • 實驗
      實驗結果

      消融實驗

      結果展示

    CVPR2019:Modified QANet

    • 題目
      Visual Question Answering as Reading Comprehension
      下載鏈接
    • 動機
      現有的VQA方法致力于將視覺信息和文本信息進行跨模態融合,而跨模態交互是很困難的,本文提出了一個做VQA的新思路,將VQA任務轉化為機器閱讀理解任務。
    • 貢獻
  • 提出一個解決VQA問題的新思路,將VQA任務轉化為機器閱讀理解任務。
  • 對于open-end VQA(沒有answer候選項)和multiple-choice VQA(有answer候選項)任務,提出兩種模型。
  • 大多數的VQA方法對于knowledge based VQA的表現不是很好,但是本文方法可以很容易的拓展至knowledge based VQA(因為模態相同)。
    • 方法
      本文方法主要基于TQA(機器閱讀理解)領域的QANet模型構建,下圖是QANet中使用的encoder結構。QANet中主要包括5個組成部分,分別是:embedding block、embedding encoder、context-query attention block、model encoder和output layer。

      下圖是本文對于open-ended VQA問題提出的模型。

      下圖是本文對于multiple-choice VQA問題提出的模型。
    • 實驗
      下圖是在FVQA數據集上的實驗結果,使用微調的QANet達到了sota。

      下圖展示了限制圖片生成的captions長度,對準確率帶來的影響。可以看出,captions越長,則準確率越高,但是計算負擔會變大。

      下圖是一些在FVQA數據集上的結果展示。

      下圖是在VGQA數據集上和open-ended模型的對比。

      下圖是在Visual7W數據集上和multiple-choice模型的對比。

      下圖是在Visual7W數據集上的successful case展示。

    CVPR2019:GQA(數據集)

    • 題目
      GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering
      下載鏈接
    • 動機
      針對現有VQA數據集的不足之處,提出GQA數據集。
  • 只是用basic、non-compositional的語言,很少需要超出object recognition的能力。
  • 對于場景和對象的描述方法存在很多種,使得我們難以學習到明確的語義信息,而這對場景理解至關重要。
  • 對于questions的內容、結構、類型等缺少標注信息,使得無法確定模型錯誤的根本原因。
    • 貢獻
  • 提出GQA數據集用于視覺推理。
  • 提出一種有效的生成大量語義變化問題的方法,將場景圖表示和計算語言方法相結合。
  • 提出了新的metrics,可以更好的對模型進行評估。
    • 方法
      GQA數據集的構造過程如下圖所示,共包括22M的questions和110K個圖像。

      在構造GQA數據時,首先,需要有每張圖像對應的scene graph,這里使用的是Visual Genome數據集。然后,使用question engine生成questions,并且每個question對應一個functional program。然后,要balance答案的分布。最后,對于每個answer,都應指向圖中對應的區域。

      下圖是GQA數據集的一些樣例:

      下圖是對數據集信息的一個統計,共分為:structural types、semantic types、semantic length三張圖(圖中最后一張畫錯了)。其中,structural types表示要執行的最終操作,semantic types表示問題的主要主題,semantic length表示推理步驟共幾步。

      下圖是VQA和GQA數據集的對比。

      下圖對比了多個數據集中question length的分布:
    • 實驗
      下圖是一些sota模型在GQA數據集上的實驗結果。本文提出了多維度評價指標,主要包括:Consistency(考察模型回答問題的一致性,對于同一張圖片的不同問題,回答不應該自相矛盾),Validity(考察模型回答問題的合理性,如顏色相關的問題,模型的回答應該是一種顏色),Plausibility(考察模型回答問題的常識性,如蘋果有紅色和綠色,但是沒有紫色的,所以在問蘋果顏色時,不能出現紫色的答案),Distribution(考察預測答案的分布與真實答案的分布之間的距離,如果模型只預測那些經常出現的答案,忽略出現次數少的答案,則此分數較低),Grounding(考察模型是否將attention放在了準確的區域)。

    CVPR2019:Cycle-Consistency(數據集)

    • 題目
      Cycle-Consistency for Robust Visual Question Answering
      下載鏈接
      本文出自Facebook AI研究院
    • 動機
      作者認為,現有VQA方法很少關注模型的魯棒性。魯棒性低意味著:對于同一張圖片,使用兩個相同語義的question(語義相同,可能語法結構有些許變化),模型會輸出不同的answer。具體如下圖:
    • 貢獻
  • 本文提出了基于循環一致性的訓練方法,使得VQA模型更加魯棒。
  • 本文基于VQA2.0數據集提出了VQA-Rephrasings數據集,用于驗證模型的魯棒性。
  • 使用本文方法訓練的模型,在VQA-Rephrasings數據集上更加魯棒。
    • 方法
      本文方法的整體架構如下圖中(a)圖所示,(b)圖代表VQG(Visual Question Generation)模塊的結構。從(a)圖中可以看出,在傳統的訓練方法上,本文添加了額外的VQG(A′→Q′A^{'} \rightarrow Q^{'}AQ)和VQA過程(Q′→A′′Q^{'} \rightarrow A^{''}QA),并添加了兩個一致性損失:Question Consistency Loss和Answer Consistency Loss。

      關于上圖中(b)圖的VQG模塊,使用的方法類似于image captioning。而生成后的Q′Q^{'}Q不能保證和原問題QQQ在語義上具有一致性,故使用門機制過濾掉一些不合適的Q′Q^{'}Q,作者計算Q′Q^{'}QQQQ的余弦相似度,并用閾值TsimT_{sim}Tsim?進行過濾。另外,作者在文中提到,為了保證每個模塊能夠獨立的工作,防止聯合訓練帶來的“欺騙”,在經過一定次數的迭代后才激活一致性損失。

      關于VQA-Rephrasing數據集,作者從VQA2.0的驗證集中隨機采樣了40504個問題(每個問題和一張圖片對應),通過人工標注生成約3倍個數的改寫問題,下圖展示了一些示例。
    • 實驗
      首先在多個baseline上驗證了VQA-Rephrasing數據集的難度。

      接下來是消融實驗。

      接下來是,successful cases展示,上面一行代表Pythia原模型,下面一行代表使用本文方法訓練的Pythia模型。

    ICCV2019:MLIN

    • 題目
      Multi-modality Latent Interaction Network for Visual Question Answering
      下載鏈接
      本文出自港中文+商湯+清華
    • 動機
      文中提到,現有VQA方法只是對單個的visual regions和words之間的關系進行建模,這與人的思考方式是不同的。人類回答視覺問題,通常會通過視覺信息和問題得到summarizations(提取主要信息),基于此summarizations進行回答。
    • 貢獻
  • 通過多模態信息的summarizations對多模態信息進行交互,這樣相當于是一個global的視角,避免了建立無用的visual regions和words之間的關系。
  • 在VQA2.0和TDIUC數據集上表現很好。
    • 方法
      本文方法的整體框架如下圖所示,通過堆疊的MLI Module提取Visual Feature和Question Feature。

      MLI Module的結構如下圖所示,共分為四個步驟,分別是:Summarization、Interaction、Propagation和Aggregation。其中,Summarization用于提取主要的visual features和question features,Interaction將兩種模態的信息進行交互,Propagation用于更深層次地理解特征之間的關系,Aggregation用于得到最終的visual features和question features,通過Transformer的key-query注意力機制進行建模。
    • 實驗
      首先,作者在VQA2.0數據集上進行了消融實驗,證明了各個模塊的有效性。

      然后,做了與當前sota模型在VQA2.0數據集上的對比。

      然后,做了與當前sota模型在TDIUC數據集上的對比。

      最后,是attention的可視化展示。

    CVPR2019:It`s not about the Journey

    • 題目
      It’s not about the Journey; It’s about the Destination: Following Soft Paths under Question-Guidance for Visual Reasoning
      下載鏈接
    • 動機
    • 貢獻
    • 方法


    • 實驗


    CVPR2019:Transfer Learning via Unsupervised Task Discovery

    • 題目
      Transfer Learning via Unsupervised Task Discovery for Visual Question Answering
      下載鏈接
      本文出自浦項科技大學(韓國)+OpenAI
    • 動機
      在VQA領域,測試集和訓練集的單詞組成往往是不同的,測試集中經常會出現out-of-vocabulary的答案,本文嘗試通過遷移學習解決這個問題。
    • 貢獻
  • 本文提出了基于task conditional visual classifier的用于vqa任務的遷移學習方法。
  • 本文提出了無監督的task discovery技術,不使用特定的task標注即可學習task conditional visual classifier。
  • 本文方法可以通過遷移visual dataset的知識來處理out-of-vocabulary的answer,不需要question annotations。
    • 方法
      本文方法的步驟如下圖所示,共分為三步:Unsupervised Task Discovery、Pretraining和Transfer to VQA。這三個步驟是漸進的,首先進行Unsupervised Task Discovery,這部分用于得到下一步使用的訓練樣本對。然后,在Pretraining階段訓練得到Task conditional visual classifier。最后,將上一步訓練好的參數遷移到VQA任務中。

      Unsupervised Task Discovery的具體步驟如下圖所示,通過Visual Description生成樣本對,進行無監督的Task Discovery。

      WordNet是一個同義詞詞集,結構如下圖所示。
    • 實驗
      實驗結果如下圖所示,可以看出,對于out-of-vocabulary數據,本文的方法很有效。

      out-of-vocabulary示例展示:

    ICCV2019:LCGN

    • 題目
      Language-Conditioned Graph Networks for Relational Reasoning
      下載鏈接
      本文出自UC伯克利。
    • 動機
      關于復雜的關系推理,已存在很多的研究方法。但是它們都將研究重點放在推理結構(inference structure)上,而忽略了特征(特征中不具有上下文信息)。本文提出了LCGN(Language-Conditioned Graph Networks),使用每個節點表示一個物體,基于輸入的文本信息,通過迭代的消息傳遞,最終得到物體的上下文表示(context-aware representation)。
    • 貢獻
  • 提出LCGN。
  • 在多個任務上均有效(作者在VQA和REF兩個任務上做了實驗)
    • 方法
      下圖是本文方法的整體框架。首先,使用雙向LSTM提取文本特征,這里作者使用了Stack-NMN(ECCV2018)和MAC(ICLR2018)中的multi-step textual attention。然后,對圖像提取local features。最后,進行TTT輪消息傳遞,得到output context- aware features。根據不同的任務,再添加不同的組件即可。
    • 實驗(這里只放VQA部分的實驗結果,REF的讀者可以去原文中看)
      在GQA數據集上的實驗結果:

      在GQA數據集上,使用不同的local features得到的實驗結果:

      在CLEVER數據集上的實驗結果,T=4T=4T=4

      一些中間結果展示:


    • 題目
      下載鏈接
    • 動機
    • 貢獻
    • 方法


    • 實驗


    與50位技術專家面對面20年技術見證,附贈技術全景圖

    總結

    以上是生活随笔為你收集整理的2019年, VQA论文汇总的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 丰满大肥婆肥奶大屁股 | 色丁香六月 | 欧美性极品少妇xxxx | 三级av免费看 | 久操视频精品 | 精品国产黄 | 69久久精品| 日本xxxxwwwww| 国产成人小视频在线观看 | 色综合欧美| 夜夜免费视频 | 草久久免费视频 | 一级特黄aa| 欧美在线精品一区 | 一级片视频免费 | 中文字幕一区二区三区四区免费看 | 私人毛片 | 四虎免费久久 | 成年人免费视频网站 | 少妇一级淫免费放 | 一起操网址 | 五月婷婷丁香综合 | 99er这里只有精品 | 久久色中文字幕 | 九九免费视频 | 久久国产精品波多野结衣 | 欧美日韩aa | 亚洲国产精品成人 | 伊人精品在线 | 亚洲一区在线不卡 | 超碰免费在线 | 久久精品国产亚洲av麻豆图片 | 国产情侣免费视频 | 6080亚洲精品一区二区 | 午夜在线免费观看视频 | 国内偷拍一区 | 日本不卡一区二区三区在线观看 | 日产久久久久久 | 永久黄色网址 | www.国产高清 | 森泽佳奈作品在线观看 | 一级片特黄 | 成年人免费在线观看 | 成人av免费网址 | 性欢交69精品久久久 | 亚洲欧美日韩国产一区二区三区 | 日韩极品在线 | 国产在线久 | 日韩和的一区二区 | 男人的天堂伊人 | 4438x全国最大成人网 | 波多野结衣亚洲视频 | 18av视频| 亚洲精品电影 | 视频一区二区三区四区五区 | 欧美日韩亚洲综合 | 午夜三级影院 | 亚洲人女屁股眼交6 | 欧美日本精品 | 国产特黄级aaaaa片免 | 国产欧美专区 | www.啪啪.com| 国产精品美女av | 午夜在线视频免费观看 | 亚洲av无码久久精品色欲 | 香蕉污视频 | 人妻无码中文字幕 | 大胸美女网站 | 日本黄色美女 | 久久99热精品| 夜夜狠狠 | 日韩av影片在线观看 | 波多野结衣亚洲天堂 | 中文字幕在线观看av | 黄色小视频在线观看 | 奇米影视亚洲 | 加勒比一区二区 | 男人资源网站 | 9999免费视频| 玖玖热视频 | 三级网站在线播放 | 日韩h在线观看 | 好看的黄色网址 | 国产美女黄色 | 亚洲欧美伦理 | 免费中文视频 | 天堂av资源在线观看 | 欧美极品jizzhd欧美仙踪林 | 午夜影院在线看 | 国产婷婷一区二区三区久久 | 丁香花免费高清完整在线播放 | 午夜在线免费视频 | 艳情五月| 老司机深夜免费福利 | 麻豆入口| 久久久6 | 中文字幕免费视频观看 | 69视频在线看 | 成人国产欧美 |