2021.02.02 Visual QA论文阅读
目錄
- [2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction
- [2016][CVPR] Neural Module Networks
[2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction
文章鏈接
本文主要的創新點是,會根據問題自適應地生成網絡參數,由于參數過多會造成過擬合等問題,作者使用了[3]中的哈希方法來降低參數量。另外,本文使用的GRU單元在大型語料庫上進行了預訓練。
本文方法的整體架構如下圖所示,非常容易看懂。
作者在DAQUAR、VQA和COCO-QA三個數據集上做了實驗:
[3] W. Chen, J. T. Wilson, S. Tyree, K. Q. Weinberger, and Y. Chen. Compressing neural networks with the hashing trick. In ICML, 2015. 2, 4, 5
[2016][CVPR] Neural Module Networks
文章鏈接
本文出自UCB的Andreas,是VQA領域的里程碑作品。作者從多個任務和網絡結構出發,首先,對于不同的任務,網絡結構是不通用的,但是,它們在經驗上都是模塊化的(一個任務的中間表示是對其他任務是有用的)。因此,Andreas通過探索神經網絡的表達能力和靈活的組合能力,嘗試去做VQA。
本文的模型結構如下圖所示,對于輸入的Image和Question,使用CNN提取Image的特征,使用Parser對Question進行解析,得到layout。再根據layout對神經模塊(本文預定義了5種模塊,下文再講)進行組合,得到specific network。使用LSTM建模常識和dataset bias,將question整體feature和specific network的結果結合,得到最終答案。
作者預定義的5個模塊如下圖所示,通過對這5個模塊進行組合,應對不同的question。
本文提出了SHAPES數據集,這是一個合成數據集,包含224個unique question、64張圖片和15616個QA pair(14592個訓練,1024個測試)。
本文方法在SHAPES數據集上的實驗結果,其中size是modules 的個數。
在VQA數據集上的實驗結果:
可視化的實驗結果:
總結
以上是生活随笔為你收集整理的2021.02.02 Visual QA论文阅读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2021.02.01 Visual QA
- 下一篇: 2021.02.03 Visual QA