日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2021.01.30 Visual QA论文阅读

發布時間:2025/3/15 编程问答 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2021.01.30 Visual QA论文阅读 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • [2015][ICCV] Ask Your Neurons A Neural-Based Approach to Answering Questions About Images
  • [2015][ICCV] Visual Madlibs: Fill in the blank Description Generation and Question Answering
  • [2015][ICCV] VQA: Visual Question Answering

[2015][ICCV] Ask Your Neurons A Neural-Based Approach to Answering Questions About Images

文章鏈接
本文和NIPS2014那篇文章一樣,出自馬普所的Malinowski。2014那篇是依據語義解析器進行視覺問答,本文使用的是端到端的LSTM。作者還基于DAQUAR數據集搜集了額外的答案,構建了DAQUAR-Consensus數據集,并提出了兩個新的metric。

xxx表示輸入圖片,用qqq表示輸入問題,用aaa表示模型輸出的答案。作者在第t個時間步時,將vt=[x,[q,a]]v_t=[x,[q,a]]vt?=[x,[q,a]]輸入LSTM模塊,訓練時,aaa為gt,測試時,a=[a1,...,at?1]a=[a_1,...,a_{t-1}]a=[a1?,...,at?1?]

在DAQUAR數據集上的實驗結果:

下圖是在DAQUAR-Consensus數據集上的實驗結果,其中ACM(Average Consensus Metric)和MCM(Min Consensus Metric)是本文提出的新metric,前者定義為1NK∑i=1N∑k=1Kmin{∏a∈Aimaxt∈Tkiμ(a,t),∏t∈Tkimaxa∈Aiμ(a,t)}\frac{1}{NK} \sum_{i=1}^{N} \sum_{k=1}^{K} \text{min} \{ \prod_{a \in A^i} \text{max}_{t \in T_k^i} \mu(a,t), \prod_{t \in T_k^i} \text{max}_{a \in A^i} \mu(a,t) \}NK1?i=1N?k=1K?min{aAi?maxtTki??μ(a,t),tTki??maxaAi?μ(a,t)}。后者定義為1N∑i=1Nmaxk=1K(min{∏a∈Aimaxt∈Tkiμ(a,t),∏t∈Tkimaxa∈Aiμ(a,t)})\frac{1}{N} \sum_{i=1}^{N} \text{max}_{k=1}^K ( \text{min} \{ \prod_{a \in A^i} \text{max}_{t \in T_k^i} \mu(a,t), \prod_{t \in T_k^i} \text{max}_{a \in A^i} \mu(a,t) \})N1?i=1N?maxk=1K?(min{aAi?maxtTki??μ(a,t),tTki??maxaAi?μ(a,t)})。其中,AiA^iAi是模型對第iii個問題的答案,TkiT^i_kTki?是人類對第iii個問題的第kkk中可能的回答,μ(a,t)\mu(a,t)μ(a,t)是一個評價指標,比如WUP。


[2015][ICCV] Visual Madlibs: Fill in the blank Description Generation and Question Answering

文章鏈接
本文作者出自北卡羅來納大學,一作為Licheng Yu。本文主要是提出了兩個新task,并構造了數據集Visual Madlibs。第一個task是targeted natural language generation,簡稱TNLG,第二個是multiple-choice question answering,簡稱MCQA。

TNLG任務其實和image caption任務類似,不同的點在于,TNLG是填空式caption,輸入是:一張圖片、一個Instruction和一個Prompt,需要模型輸出blank處的答案。MCQA任務的輸入包含TNLG的輸入,但多了許多個候選答案,模型需要選出最適合填入blank中的答案。

實驗上,作者在一些baseline方法,還有一些簡單的joint-embedding方法上進行了對比,下面是MCQA任務的實驗結果。


[2015][ICCV] VQA: Visual Question Answering

文章鏈接
本文出自Virginia Tech和微軟研究院,一作是Stanislaw Antol。本文是第一篇明確提出VQA(Visual Question Answering)任務的文章。VQA任務定義為:輸入文本形式問題+一張圖片,輸出文本形式答案。且此任務是開放、自由的,不提供候選答案(雖然本文提到他們也提出了多選VQA任務),也不fill in blank。

本文構造的數據集叫作VQA v1.0,包含265016張圖片(來自COCO),每張圖片有至少3個問題,每個問題有10個候選答案、3個假答案。

在實驗部分,本文構建了兩個簡單的baseline model。首先,取數據集中最常見的1000中答案,作為備選(基本可以回答82.67%的問題)。分別訓練一個MLP和LSTM+softmax模型,將VQA問題視為1000分類問題去訓練,作為baseline。下圖是實驗結果,Q代表question,I代表image,C代表caption(圖片的human caption結果),表示在不同的輸入下,模型的結果。

總結

以上是生活随笔為你收集整理的2021.01.30 Visual QA论文阅读的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。