當前位置：首頁 >

2020-07-16 CVPR2020 VL论文讨论（5）笔记

發布時間：2025/3/15 44 豆豆

生活随笔收集整理的這篇文章主要介紹了 2020-07-16 CVPR2020 VL论文讨论（5）笔记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

[1] SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions
[2] Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for Text VQA
[3] Syntax-Aware Action Targeting for Video Captioning
[4] Modality Shifting Attention Network for Multi-modal Video Question Answering
[5] Graph-Structured Referring Expression Reasoning in The Wild
[6] Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs
總結

[1] SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions

oral
motivation：模型答對了問題，但是可能并沒有理解圖像，這體現在對問題的回答存在不一致性（eg：圖中香蕉是什么顏色的？綠色。這個香蕉熟了嗎？熟了。）。
method：本文提出一個數據集，將VQA任務中的問題分為兩類：Reasoning、Perception。其中，Perception類問題是Reasoning類問題的子問題（前提）。

[2] 在V&L中使用了Transformer，但是使用方法有些簡單，感覺沒有發揮出Transformer的優勢。
[1][5][6] 三篇文章分別針對VQA、RE、ImageCaptioning三個任務，提出了具有推理能力的方法。[1]從sub-question的一致性出發，將question分為兩類，并提出了特定數據集。[5]中考慮referring expression的語言結構，作為reasoing的order。[6]提出了抽象場景圖的概念，并適用抽象場景圖作為reasoning的order（當然，這篇文章的重點在于抽象場景圖帶來的細粒度可控性）。由此可見，進行reasoning的形式和方法有很多，應多思考。

以上是生活随笔為你收集整理的2020-07-16 CVPR2020 VL论文讨论（5）笔记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。