當前位置：首頁 >

2021.02.04 Visual QA论文阅读

發布時間：2025/3/15 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 2021.02.04 Visual QA论文阅读小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

[2016][CVPR] Where To Look: Focus Regions for Visual Question Answering

文章鏈接
本文的motivation很明確——knowing where to look。

方法上，本文只針對多項選擇式VQA。首先，得到region features $v_i$ 和text feature $q$ ，先經過 $g_i = (Av_i+b^A)^T(Bq+b^B)$ 和 $softmax(g)\text{softmax}(g)$ 得到region weight $s_i$ ，然后將region features $v_i$ 和text feature $q$ 連接，得到 $d_i = [v_i, q]$ ，最后經過 $\sum_{i}(Wd_i,+b^W)s_i$ 得到weighted average feature $z$ ，用于后續的分類和分數預測。

下面是在VQA數據集上的實驗結果，和一些可視化的實驗結果。

[2016][CVPR] Yin and Yang: Balancing and Answering Binary Visual Questions

文章鏈接
本文題目中提到陰陽，其實就是想說balance。。。作者先是從language prior的角度出發，說語言信息能夠對VQA任務提供先驗信息，如：對于question “Is the xxx yyy zzz?”，答案一定是yes or no。本文正是針對這類VQA問題（回答是yes or no的QA pair），作者對VQA數據集進行了balance，然后提出了一種基于visual verification的binary VQA方法。

關于作者如何balance數據集，這里就不多提了，下面簡單介紹一下本文的方法。由于作者只針對binary VQA，本文的模型分為兩個組成部分：① 語言解析（Language Parsing）；② 視覺驗證（Visual Verification）。在語言解析部分，作者使用斯坦福解析器對question進行解析，然后做一些“剪枝”操作（去除some、the等stop words，去除is、do等輔助動詞），得到question的summary。如：Is the woman on couch petting the dog? → woman on couch petting dog. 然后，作者提取PRS三元組<woman on couch, petting, dog>，這部分作者使用了[17]中的方法。得到三元組后，需要將其中的P和S對應到圖片中，這部分作者參考[39]中的方法，將圖片中和單詞（如：dog）互信息最高的部分作為referent。完成alignment后，需要進行視覺驗證。視覺驗證部分訓練了兩個模型，分別是Q-model和Tuple-model。Q-model使用image feature和question global feature（使用LSTM得到）作為輸入，做一個point-wise multiplication，得到多模態表示，經過fc層得到yes or no的輸出。Tuple-model使用image feature（和Q-model一樣）和PRS words feature（使用word2vec得到，進行concatenation）作為輸入，和Q-model做一樣的后續操作。得到的兩份yes or no，經過乘法（我理解的是，都為yes才是yes）得到最終答案。注意： image feature是aligned PS image feature。

實驗結果分為兩部分，unbalanced VQA和balanced VQA。

可視化實驗結果：

[17] P. Halcsy, A. Kornai, and C. Oravecz. Hunpos - an open source trigram tagger. In ACL, 2007. 5
[39] C. L. Zitnick, D. Parikh, and L. Vanderwende. Learning the Visual Interpretation of Sentences. In ICCV, 2013. 2, 3, 5

與50位技術專家面對面20年技術見證，附贈技術全景圖

總結

以上是生活随笔為你收集整理的2021.02.04 Visual QA论文阅读的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 2021.02.03 Visual QA
下一篇： 2021.02.05 Visual QA

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活随笔

生活随笔

2021.02.04 Visual QA论文阅读

目錄

[2016][CVPR] Where To Look: Focus Regions for Visual Question Answering

[2016][CVPR] Yin and Yang: Balancing and Answering Binary Visual Questions

總結