日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2021.01.29 Visual QA论文阅读

發布時間:2025/3/15 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2021.01.29 Visual QA论文阅读 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • [2014][NIPS] A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input
  • [2015][CVPR] VisKE: Visual Knowledge Extraction and Question Answering by Visual Verification of Relation Phrases

[2014][NIPS] A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input

文章鏈接
本文作者是馬普所的Malinowski,這是第一篇提出將視覺和語言進行聯合來回答問題的論文,但是對任務的定義不夠明確,提出的數據集DAQUAR只有約12000個qa pair,圖片是RGBD形式的,且我沒找到下載鏈接。。。

在方法上,作者基于貝葉斯框架搭建了模型,并提出了兩個針對不同場景的方法,分別是:Single-world approach和Multi-worlds approach。前者的整個過程可以歸納為:P(A∣Q,W)=∑TP(A∣T,W)P(T∣Q)P(A|Q,W)=\sum_{T}P(A|T,W)P(T|Q)P(AQ,W)=T?P(AT,W)P(TQ),后者的整個過程可以歸納為:P(A∣Q,S)=∑W∑TP(A∣W,T)P(W∣S)P(T∣Q)P(A|Q,S)=\sum_{W} \sum_{T} P(A|W,T) P(W|S) P(T|Q)P(AQ,S)=W?T?P(AW,T)P(WS)P(TQ)

在實驗結果上,作者使用WUP score作為評價指標,


[2015][CVPR] VisKE: Visual Knowledge Extraction and Question Answering by Visual Verification of Relation Phrases

文章鏈接
本文一作Sadeghi出自華盛頓大學。以前的方法都關注于語言或文本的推理、驗證,本文是第一個提出做視覺短語關系驗證(visual verification of relation phrases)的。而本文模型,實際上,就是輸入一個關系謂語,如“吃(馬,草)”,就是“馬吃草嗎?”,模型通過對網絡上的圖片進行檢索,建模,最終得出“是”這個答案。

本文的整體框架如下圖所示,可以看出,這是一個無監督(額,檢索過程實際上不是相當于用了別人訓練好的檢索模型?)的方法,首先對輸入的關系謂語進行圖片檢索,使用五個不同的檢測器對圖片進行檢測,再經過后處理得到結果。

后處理過程其實就是極大似然估計。

在實現上,作者使用[9]中的方法,分別訓練S、O、SV、VO和SVO的檢測器。然后,對于每個檢測器,使用[16]中的方法,訓練出一個DPM,視為一個組件。并在單獨的驗證步驟時,對有噪聲的組件進行修剪。最終,通過factors將這些獨立的檢測器進行混合。

在Relation Phrase數據集上的實驗結果:

參考文獻
[9] S. Divvala, A. Farhadi, and C. Guestrin. Learning everything about anything: Webly-supervised visual concept learning. In CVPR, 2014. 2, 4, 6
[16] P. Felzenszwalb et al. Object detection with discriminatively trained part based models. PAMI, 2010. 2, 4
[28] J. Pearl. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Morgan Kaufmann Publishers Inc., 1988. 4

總結

以上是生活随笔為你收集整理的2021.01.29 Visual QA论文阅读的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。