日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2021.02.02 Visual QA论文阅读

發布時間:2025/3/15 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2021.02.02 Visual QA论文阅读 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • [2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction
  • [2016][CVPR] Neural Module Networks

[2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction

文章鏈接
本文主要的創新點是,會根據問題自適應地生成網絡參數,由于參數過多會造成過擬合等問題,作者使用了[3]中的哈希方法來降低參數量。另外,本文使用的GRU單元在大型語料庫上進行了預訓練。

本文方法的整體架構如下圖所示,非常容易看懂。

作者在DAQUAR、VQA和COCO-QA三個數據集上做了實驗:

[3] W. Chen, J. T. Wilson, S. Tyree, K. Q. Weinberger, and Y. Chen. Compressing neural networks with the hashing trick. In ICML, 2015. 2, 4, 5


[2016][CVPR] Neural Module Networks

文章鏈接
本文出自UCB的Andreas,是VQA領域的里程碑作品。作者從多個任務和網絡結構出發,首先,對于不同的任務,網絡結構是不通用的,但是,它們在經驗上都是模塊化的(一個任務的中間表示是對其他任務是有用的)。因此,Andreas通過探索神經網絡的表達能力和靈活的組合能力,嘗試去做VQA。

本文的模型結構如下圖所示,對于輸入的Image和Question,使用CNN提取Image的特征,使用Parser對Question進行解析,得到layout。再根據layout對神經模塊(本文預定義了5種模塊,下文再講)進行組合,得到specific network。使用LSTM建模常識和dataset bias,將question整體feature和specific network的結果結合,得到最終答案。

作者預定義的5個模塊如下圖所示,通過對這5個模塊進行組合,應對不同的question。




本文提出了SHAPES數據集,這是一個合成數據集,包含224個unique question、64張圖片和15616個QA pair(14592個訓練,1024個測試)。

本文方法在SHAPES數據集上的實驗結果,其中size是modules 的個數。

在VQA數據集上的實驗結果:

可視化的實驗結果:

總結

以上是生活随笔為你收集整理的2021.02.02 Visual QA论文阅读的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。