當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2021.02.03 Visual QA论文阅读

發布時間：2025/3/15 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了 2021.02.03 Visual QA论文阅读小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

[2016][CVPR] Stacked Attention Networks for Image Question Answering

文章鏈接
本文出自CMU+微軟研究院（何曉冬），應該是第一篇提出VQA需要多步推理的文章。本文的動機來自于：在VQA任務中，question和answer往往只和image中的部分信息相關，而現有方法使用image的global feature，這會帶來噪聲，降低準確性。

在方法上，本文主要包括三個部分：① 使用VGG提取image feature，大小為 $512 \times 14 \times 14$ ，作者將每個 $14 \times 14$ 視為一個region，也就是每個region feature為 $512 \times 1$ 。② 使用CNN或者LSTM提取question feature。③ 基于image feature和question feature生成region level的attention，基于此attention對image feature進行“優化”，基于優化后的image feature對question feature進行“優化”，使其同時具有視覺和語言的信息。多步推理體現在重復進行多次③（文中是兩次）。

下面是實驗結果，包括DAQUAR、COCO-QA和VQA，結果很好。

[2016][CVPR] Visual7W: Grounded Question Answering in Images

文章鏈接
文章出自斯坦福李飛飛組。本文的動機和SAN類似，作者認為，直接使用global feature是不好的，應該建立local region link。文中提到這樣一句話：a tighter semantic link between textual descriptions and corresponding visual regions is a key ingredient for better models. 和global image-level associations相比，object-level grounding可以降低關聯歧義。

本文的方法如下圖所示，就是在傳統的global方法[28]上，添加了一個spatial attention。

本文的另一大貢獻是，構造了Visual7W數據集。這是一個multiple-choice數據集，包含327939個QA pair，47300張圖片，1311756個choice，561459個object level標注和36579個類別。為什么數據集叫7W呢，因為從what、where、when、who、why、how和which，這七種W出發構造的數據集。值得一提的是，本文將前6種W稱為telling questions，而which稱為pointing questions，它們的區別也很顯然（which的答案是image中的region，而非文本答案）：

Visual7W和現有數據集的對比，如下圖所示：

下面是實驗結果，添加了spatial attention可以提高4個百分點。

[28] M. Malinowski, M. Rohrbach, and M. Fritz. Ask your neurons: A neural-based approach to answering questions about images. ICCV, 2015. 2, 5, 7

總結

以上是生活随笔為你收集整理的2021.02.03 Visual QA论文阅读的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 2021.02.02 Visual QA
下一篇： 2021.02.04 Visual QA

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活随笔