2021.01.29 Visual QA论文阅读
目錄
- [2014][NIPS] A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input
- [2015][CVPR] VisKE: Visual Knowledge Extraction and Question Answering by Visual Verification of Relation Phrases
[2014][NIPS] A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input
文章鏈接
本文作者是馬普所的Malinowski,這是第一篇提出將視覺和語言進(jìn)行聯(lián)合來回答問題的論文,但是對任務(wù)的定義不夠明確,提出的數(shù)據(jù)集DAQUAR只有約12000個qa pair,圖片是RGBD形式的,且我沒找到下載鏈接。。。
在方法上,作者基于貝葉斯框架搭建了模型,并提出了兩個針對不同場景的方法,分別是:Single-world approach和Multi-worlds approach。前者的整個過程可以歸納為:P(A∣Q,W)=∑TP(A∣T,W)P(T∣Q)P(A|Q,W)=\sum_{T}P(A|T,W)P(T|Q)P(A∣Q,W)=∑T?P(A∣T,W)P(T∣Q),后者的整個過程可以歸納為:P(A∣Q,S)=∑W∑TP(A∣W,T)P(W∣S)P(T∣Q)P(A|Q,S)=\sum_{W} \sum_{T} P(A|W,T) P(W|S) P(T|Q)P(A∣Q,S)=∑W?∑T?P(A∣W,T)P(W∣S)P(T∣Q)
在實驗結(jié)果上,作者使用WUP score作為評價指標(biāo),
[2015][CVPR] VisKE: Visual Knowledge Extraction and Question Answering by Visual Verification of Relation Phrases
文章鏈接
本文一作Sadeghi出自華盛頓大學(xué)。以前的方法都關(guān)注于語言或文本的推理、驗證,本文是第一個提出做視覺短語關(guān)系驗證(visual verification of relation phrases)的。而本文模型,實際上,就是輸入一個關(guān)系謂語,如“吃(馬,草)”,就是“馬吃草嗎?”,模型通過對網(wǎng)絡(luò)上的圖片進(jìn)行檢索,建模,最終得出“是”這個答案。
本文的整體框架如下圖所示,可以看出,這是一個無監(jiān)督(額,檢索過程實際上不是相當(dāng)于用了別人訓(xùn)練好的檢索模型?)的方法,首先對輸入的關(guān)系謂語進(jìn)行圖片檢索,使用五個不同的檢測器對圖片進(jìn)行檢測,再經(jīng)過后處理得到結(jié)果。
后處理過程其實就是極大似然估計。
在實現(xiàn)上,作者使用[9]中的方法,分別訓(xùn)練S、O、SV、VO和SVO的檢測器。然后,對于每個檢測器,使用[16]中的方法,訓(xùn)練出一個DPM,視為一個組件。并在單獨的驗證步驟時,對有噪聲的組件進(jìn)行修剪。最終,通過factors將這些獨立的檢測器進(jìn)行混合。
在Relation Phrase數(shù)據(jù)集上的實驗結(jié)果:
參考文獻(xiàn)
[9] S. Divvala, A. Farhadi, and C. Guestrin. Learning everything about anything: Webly-supervised visual concept learning. In CVPR, 2014. 2, 4, 6
[16] P. Felzenszwalb et al. Object detection with discriminatively trained part based models. PAMI, 2010. 2, 4
[28] J. Pearl. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Morgan Kaufmann Publishers Inc., 1988. 4
總結(jié)
以上是生活随笔為你收集整理的2021.01.29 Visual QA论文阅读的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ECCV 2020《TRRNet: Ti
- 下一篇: 2021.01.30 Visual QA