2021.01.30 Visual QA论文阅读
目錄
- [2015][ICCV] Ask Your Neurons A Neural-Based Approach to Answering Questions About Images
- [2015][ICCV] Visual Madlibs: Fill in the blank Description Generation and Question Answering
- [2015][ICCV] VQA: Visual Question Answering
[2015][ICCV] Ask Your Neurons A Neural-Based Approach to Answering Questions About Images
文章鏈接
本文和NIPS2014那篇文章一樣,出自馬普所的Malinowski。2014那篇是依據語義解析器進行視覺問答,本文使用的是端到端的LSTM。作者還基于DAQUAR數據集搜集了額外的答案,構建了DAQUAR-Consensus數據集,并提出了兩個新的metric。
用xxx表示輸入圖片,用qqq表示輸入問題,用aaa表示模型輸出的答案。作者在第t個時間步時,將vt=[x,[q,a]]v_t=[x,[q,a]]vt?=[x,[q,a]]輸入LSTM模塊,訓練時,aaa為gt,測試時,a=[a1,...,at?1]a=[a_1,...,a_{t-1}]a=[a1?,...,at?1?]。
在DAQUAR數據集上的實驗結果:
下圖是在DAQUAR-Consensus數據集上的實驗結果,其中ACM(Average Consensus Metric)和MCM(Min Consensus Metric)是本文提出的新metric,前者定義為1NK∑i=1N∑k=1Kmin{∏a∈Aimaxt∈Tkiμ(a,t),∏t∈Tkimaxa∈Aiμ(a,t)}\frac{1}{NK} \sum_{i=1}^{N} \sum_{k=1}^{K} \text{min} \{ \prod_{a \in A^i} \text{max}_{t \in T_k^i} \mu(a,t), \prod_{t \in T_k^i} \text{max}_{a \in A^i} \mu(a,t) \}NK1?∑i=1N?∑k=1K?min{∏a∈Ai?maxt∈Tki??μ(a,t),∏t∈Tki??maxa∈Ai?μ(a,t)}。后者定義為1N∑i=1Nmaxk=1K(min{∏a∈Aimaxt∈Tkiμ(a,t),∏t∈Tkimaxa∈Aiμ(a,t)})\frac{1}{N} \sum_{i=1}^{N} \text{max}_{k=1}^K ( \text{min} \{ \prod_{a \in A^i} \text{max}_{t \in T_k^i} \mu(a,t), \prod_{t \in T_k^i} \text{max}_{a \in A^i} \mu(a,t) \})N1?∑i=1N?maxk=1K?(min{∏a∈Ai?maxt∈Tki??μ(a,t),∏t∈Tki??maxa∈Ai?μ(a,t)})。其中,AiA^iAi是模型對第iii個問題的答案,TkiT^i_kTki?是人類對第iii個問題的第kkk中可能的回答,μ(a,t)\mu(a,t)μ(a,t)是一個評價指標,比如WUP。
[2015][ICCV] Visual Madlibs: Fill in the blank Description Generation and Question Answering
文章鏈接
本文作者出自北卡羅來納大學,一作為Licheng Yu。本文主要是提出了兩個新task,并構造了數據集Visual Madlibs。第一個task是targeted natural language generation,簡稱TNLG,第二個是multiple-choice question answering,簡稱MCQA。
TNLG任務其實和image caption任務類似,不同的點在于,TNLG是填空式caption,輸入是:一張圖片、一個Instruction和一個Prompt,需要模型輸出blank處的答案。MCQA任務的輸入包含TNLG的輸入,但多了許多個候選答案,模型需要選出最適合填入blank中的答案。
實驗上,作者在一些baseline方法,還有一些簡單的joint-embedding方法上進行了對比,下面是MCQA任務的實驗結果。
[2015][ICCV] VQA: Visual Question Answering
文章鏈接
本文出自Virginia Tech和微軟研究院,一作是Stanislaw Antol。本文是第一篇明確提出VQA(Visual Question Answering)任務的文章。VQA任務定義為:輸入文本形式問題+一張圖片,輸出文本形式答案。且此任務是開放、自由的,不提供候選答案(雖然本文提到他們也提出了多選VQA任務),也不fill in blank。
本文構造的數據集叫作VQA v1.0,包含265016張圖片(來自COCO),每張圖片有至少3個問題,每個問題有10個候選答案、3個假答案。
在實驗部分,本文構建了兩個簡單的baseline model。首先,取數據集中最常見的1000中答案,作為備選(基本可以回答82.67%的問題)。分別訓練一個MLP和LSTM+softmax模型,將VQA問題視為1000分類問題去訓練,作為baseline。下圖是實驗結果,Q代表question,I代表image,C代表caption(圖片的human caption結果),表示在不同的輸入下,模型的結果。
總結
以上是生活随笔為你收集整理的2021.01.30 Visual QA论文阅读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2021.01.29 Visual QA
- 下一篇: 2021.02.01 Visual QA