日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

2021.02.04 Visual QA论文阅读

發布時間:2025/3/15 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2021.02.04 Visual QA论文阅读 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • [2016][CVPR] Where To Look: Focus Regions for Visual Question Answering
  • [2016][CVPR] Yin and Yang: Balancing and Answering Binary Visual Questions

[2016][CVPR] Where To Look: Focus Regions for Visual Question Answering

文章鏈接
本文的motivation很明確——knowing where to look。

方法上,本文只針對多項選擇式VQA。首先,得到region features viv_ivi?和text feature qqq,先經過gi=(Avi+bA)T(Bq+bB)g_i = (Av_i+b^A)^T(Bq+b^B)gi?=(Avi?+bA)T(Bq+bB)softmax(g)\text{softmax}(g)softmax(g)得到region weight sis_isi?,然后將region features viv_ivi?和text feature qqq連接,得到di=[vi,q]d_i = [v_i, q]di?=[vi?,q],最后經過z=∑i(Wdi,+bW)siz = \sum_{i}(Wd_i,+b^W)s_iz=i?(Wdi?,+bW)si?得到weighted average feature zzz,用于后續的分類和分數預測。

下面是在VQA數據集上的實驗結果,和一些可視化的實驗結果。


[2016][CVPR] Yin and Yang: Balancing and Answering Binary Visual Questions

文章鏈接
本文題目中提到陰陽,其實就是想說balance。。。作者先是從language prior的角度出發,說語言信息能夠對VQA任務提供先驗信息,如:對于question “Is the xxx yyy zzz?”,答案一定是yes or no。本文正是針對這類VQA問題(回答是yes or no的QA pair),作者對VQA數據集進行了balance,然后提出了一種基于visual verification的binary VQA方法。

關于作者如何balance數據集,這里就不多提了,下面簡單介紹一下本文的方法。由于作者只針對binary VQA,本文的模型分為兩個組成部分:① 語言解析(Language Parsing);② 視覺驗證(Visual Verification)。在語言解析部分,作者使用斯坦福解析器對question進行解析,然后做一些“剪枝”操作(去除some、the等stop words,去除is、do等輔助動詞),得到question的summary。如:Is the woman on couch petting the dog? → woman on couch petting dog. 然后,作者提取PRS三元組<woman on couch, petting, dog>,這部分作者使用了[17]中的方法。得到三元組后,需要將其中的P和S對應到圖片中,這部分作者參考[39]中的方法,將圖片中和單詞(如:dog)互信息最高的部分作為referent。完成alignment后,需要進行視覺驗證。視覺驗證部分訓練了兩個模型,分別是Q-model和Tuple-model。Q-model使用image feature和question global feature(使用LSTM得到)作為輸入,做一個point-wise multiplication,得到多模態表示,經過fc層得到yes or no的輸出。Tuple-model使用image feature(和Q-model一樣)和PRS words feature(使用word2vec得到,進行concatenation)作為輸入,和Q-model做一樣的后續操作。得到的兩份yes or no,經過乘法(我理解的是,都為yes才是yes)得到最終答案。注意: image feature是aligned PS image feature。

實驗結果分為兩部分,unbalanced VQA和balanced VQA。

可視化實驗結果:

[17] P. Halcsy, A. Kornai, and C. Oravecz. Hunpos - an open source trigram tagger. In ACL, 2007. 5
[39] C. L. Zitnick, D. Parikh, and L. Vanderwende. Learning the Visual Interpretation of Sentences. In ICCV, 2013. 2, 3, 5

與50位技術專家面對面20年技術見證,附贈技術全景圖

總結

以上是生活随笔為你收集整理的2021.02.04 Visual QA论文阅读的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。