當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2021.01.30 Visual QA论文阅读

發布時間：2025/3/15 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 2021.01.30 Visual QA论文阅读小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

[2015][ICCV] Ask Your Neurons A Neural-Based Approach to Answering Questions About Images

文章鏈接
本文和NIPS2014那篇文章一樣，出自馬普所的Malinowski。2014那篇是依據語義解析器進行視覺問答，本文使用的是端到端的LSTM。作者還基于DAQUAR數據集搜集了額外的答案，構建了DAQUAR-Consensus數據集，并提出了兩個新的metric。

用 $x$ 表示輸入圖片，用 $q$ 表示輸入問題，用 $a$ 表示模型輸出的答案。作者在第t個時間步時，將 $v_t=[x,[q,a]]$ 輸入LSTM模塊，訓練時, $a$ 為gt，測試時， $a=[a_1,...,a_{t-1}]$ 。

在DAQUAR數據集上的實驗結果：

下圖是在DAQUAR-Consensus數據集上的實驗結果，其中ACM（Average Consensus Metric）和MCM（Min Consensus Metric）是本文提出的新metric，前者定義為 $1NK∑i=1N∑k=1Kmin{∏a∈Aimaxt∈Tkiμ(a,t),∏t∈Tkimaxa∈Aiμ(a,t)}\frac{1}{NK} \sum_{i=1}^{N} \sum_{k=1}^{K} \text{min} \{ \prod_{a \in A^i} \text{max}_{t \in T_k^i} \mu(a,t), \prod_{t \in T_k^i} \text{max}_{a \in A^i} \mu(a,t) \}$ 。后者定義為 $1N∑i=1Nmaxk=1K(min{∏a∈Aimaxt∈Tkiμ(a,t),∏t∈Tkimaxa∈Aiμ(a,t)})\frac{1}{N} \sum_{i=1}^{N} \text{max}_{k=1}^K ( \text{min} \{ \prod_{a \in A^i} \text{max}_{t \in T_k^i} \mu(a,t), \prod_{t \in T_k^i} \text{max}_{a \in A^i} \mu(a,t) \})$ 。其中， $A^i$ 是模型對第 $i$ 個問題的答案， $TkiT^i_k$ 是人類對第 $i$ 個問題的第 $k$ 中可能的回答， $μ(a,t)\mu(a,t)$ 是一個評價指標，比如WUP。

[2015][ICCV] Visual Madlibs: Fill in the blank Description Generation and Question Answering

文章鏈接
本文作者出自北卡羅來納大學，一作為Licheng Yu。本文主要是提出了兩個新task，并構造了數據集Visual Madlibs。第一個task是targeted natural language generation，簡稱TNLG，第二個是multiple-choice question answering，簡稱MCQA。

TNLG任務其實和image caption任務類似，不同的點在于，TNLG是填空式caption，輸入是：一張圖片、一個Instruction和一個Prompt，需要模型輸出blank處的答案。MCQA任務的輸入包含TNLG的輸入，但多了許多個候選答案，模型需要選出最適合填入blank中的答案。

實驗上，作者在一些baseline方法，還有一些簡單的joint-embedding方法上進行了對比，下面是MCQA任務的實驗結果。

[2015][ICCV] VQA: Visual Question Answering

文章鏈接
本文出自Virginia Tech和微軟研究院，一作是Stanislaw Antol。本文是第一篇明確提出VQA（Visual Question Answering）任務的文章。VQA任務定義為：輸入文本形式問題+一張圖片，輸出文本形式答案。且此任務是開放、自由的，不提供候選答案（雖然本文提到他們也提出了多選VQA任務），也不fill in blank。

本文構造的數據集叫作VQA v1.0，包含265016張圖片（來自COCO），每張圖片有至少3個問題，每個問題有10個候選答案、3個假答案。

在實驗部分，本文構建了兩個簡單的baseline model。首先，取數據集中最常見的1000中答案，作為備選（基本可以回答82.67%的問題）。分別訓練一個MLP和LSTM+softmax模型，將VQA問題視為1000分類問題去訓練，作為baseline。下圖是實驗結果，Q代表question，I代表image，C代表caption（圖片的human caption結果），表示在不同的輸入下，模型的結果。

總結

以上是生活随笔為你收集整理的2021.01.30 Visual QA论文阅读的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 2021.01.29 Visual QA
下一篇： 2021.02.01 Visual QA

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活随笔