當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2021.02.02 Visual QA论文阅读

發(fā)布時(shí)間：2025/3/15 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了 2021.02.02 Visual QA论文阅读小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

[2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction

文章鏈接
本文主要的創(chuàng)新點(diǎn)是，會根據(jù)問題自適應(yīng)地生成網(wǎng)絡(luò)參數(shù)，由于參數(shù)過多會造成過擬合等問題，作者使用了[3]中的哈希方法來降低參數(shù)量。另外，本文使用的GRU單元在大型語料庫上進(jìn)行了預(yù)訓(xùn)練。

本文方法的整體架構(gòu)如下圖所示，非常容易看懂。

作者在DAQUAR、VQA和COCO-QA三個(gè)數(shù)據(jù)集上做了實(shí)驗(yàn)：

[3] W. Chen, J. T. Wilson, S. Tyree, K. Q. Weinberger, and Y. Chen. Compressing neural networks with the hashing trick. In ICML, 2015. 2, 4, 5

[2016][CVPR] Neural Module Networks

文章鏈接
本文出自UCB的Andreas，是VQA領(lǐng)域的里程碑作品。作者從多個(gè)任務(wù)和網(wǎng)絡(luò)結(jié)構(gòu)出發(fā)，首先，對于不同的任務(wù)，網(wǎng)絡(luò)結(jié)構(gòu)是不通用的，但是，它們在經(jīng)驗(yàn)上都是模塊化的（一個(gè)任務(wù)的中間表示是對其他任務(wù)是有用的）。因此，Andreas通過探索神經(jīng)網(wǎng)絡(luò)的表達(dá)能力和靈活的組合能力，嘗試去做VQA。

本文的模型結(jié)構(gòu)如下圖所示，對于輸入的Image和Question，使用CNN提取Image的特征，使用Parser對Question進(jìn)行解析，得到layout。再根據(jù)layout對神經(jīng)模塊（本文預(yù)定義了5種模塊，下文再講）進(jìn)行組合，得到specific network。使用LSTM建模常識和dataset bias，將question整體feature和specific network的結(jié)果結(jié)合，得到最終答案。

作者預(yù)定義的5個(gè)模塊如下圖所示，通過對這5個(gè)模塊進(jìn)行組合，應(yīng)對不同的question。

本文提出了SHAPES數(shù)據(jù)集，這是一個(gè)合成數(shù)據(jù)集，包含224個(gè)unique question、64張圖片和15616個(gè)QA pair（14592個(gè)訓(xùn)練，1024個(gè)測試）。

本文方法在SHAPES數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果，其中size是modules 的個(gè)數(shù)。

在VQA數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果：

可視化的實(shí)驗(yàn)結(jié)果：

總結(jié)

以上是生活随笔為你收集整理的2021.02.02 Visual QA论文阅读的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： 2021.02.01 Visual QA
下一篇： 2021.02.03 Visual QA

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活随笔