日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2021.02.04 Visual QA论文阅读

發(fā)布時間:2025/3/15 编程问答 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2021.02.04 Visual QA论文阅读 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

目錄

  • [2016][CVPR] Where To Look: Focus Regions for Visual Question Answering
  • [2016][CVPR] Yin and Yang: Balancing and Answering Binary Visual Questions

[2016][CVPR] Where To Look: Focus Regions for Visual Question Answering

文章鏈接
本文的motivation很明確——knowing where to look。

方法上,本文只針對多項選擇式VQA。首先,得到region features viv_ivi?和text feature qqq,先經(jīng)過gi=(Avi+bA)T(Bq+bB)g_i = (Av_i+b^A)^T(Bq+b^B)gi?=(Avi?+bA)T(Bq+bB)softmax(g)\text{softmax}(g)softmax(g)得到region weight sis_isi?,然后將region features viv_ivi?和text feature qqq連接,得到di=[vi,q]d_i = [v_i, q]di?=[vi?,q],最后經(jīng)過z=∑i(Wdi,+bW)siz = \sum_{i}(Wd_i,+b^W)s_iz=i?(Wdi?,+bW)si?得到weighted average feature zzz,用于后續(xù)的分類和分數(shù)預(yù)測。

下面是在VQA數(shù)據(jù)集上的實驗結(jié)果,和一些可視化的實驗結(jié)果。


[2016][CVPR] Yin and Yang: Balancing and Answering Binary Visual Questions

文章鏈接
本文題目中提到陰陽,其實就是想說balance。。。作者先是從language prior的角度出發(fā),說語言信息能夠?qū)QA任務(wù)提供先驗信息,如:對于question “Is the xxx yyy zzz?”,答案一定是yes or no。本文正是針對這類VQA問題(回答是yes or no的QA pair),作者對VQA數(shù)據(jù)集進行了balance,然后提出了一種基于visual verification的binary VQA方法。

關(guān)于作者如何balance數(shù)據(jù)集,這里就不多提了,下面簡單介紹一下本文的方法。由于作者只針對binary VQA,本文的模型分為兩個組成部分:① 語言解析(Language Parsing);② 視覺驗證(Visual Verification)。在語言解析部分,作者使用斯坦福解析器對question進行解析,然后做一些“剪枝”操作(去除some、the等stop words,去除is、do等輔助動詞),得到question的summary。如:Is the woman on couch petting the dog? → woman on couch petting dog. 然后,作者提取PRS三元組<woman on couch, petting, dog>,這部分作者使用了[17]中的方法。得到三元組后,需要將其中的P和S對應(yīng)到圖片中,這部分作者參考[39]中的方法,將圖片中和單詞(如:dog)互信息最高的部分作為referent。完成alignment后,需要進行視覺驗證。視覺驗證部分訓(xùn)練了兩個模型,分別是Q-model和Tuple-model。Q-model使用image feature和question global feature(使用LSTM得到)作為輸入,做一個point-wise multiplication,得到多模態(tài)表示,經(jīng)過fc層得到y(tǒng)es or no的輸出。Tuple-model使用image feature(和Q-model一樣)和PRS words feature(使用word2vec得到,進行concatenation)作為輸入,和Q-model做一樣的后續(xù)操作。得到的兩份yes or no,經(jīng)過乘法(我理解的是,都為yes才是yes)得到最終答案。注意: image feature是aligned PS image feature。

實驗結(jié)果分為兩部分,unbalanced VQA和balanced VQA。

可視化實驗結(jié)果:

[17] P. Halcsy, A. Kornai, and C. Oravecz. Hunpos - an open source trigram tagger. In ACL, 2007. 5
[39] C. L. Zitnick, D. Parikh, and L. Vanderwende. Learning the Visual Interpretation of Sentences. In ICCV, 2013. 2, 3, 5

與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的2021.02.04 Visual QA论文阅读的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。