當前位置：首頁 >

2021.02.23 Visual QA论文阅读

發布時間：2025/3/15 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 2021.02.23 Visual QA论文阅读小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

[2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answering

文章鏈接
本文的動機很明確，就是組合泛化。什么是組合泛化？在測試集中出現了訓練集中沒有出現過的“組合”。如：訓練集中有“紅色的狗”、“綠色的貓”，但是測試集中的數據是“紅色的貓”。

在相關工作中，作者首先分析了基于神經符號的VQA方法，典型的方法如NMNs、NS-VQA和NS-CL。這些方法在組合泛化上也具有不錯的性能，與它們相比，本文的優勢在于，使用概率因子圖和圖神經網絡使兩種模態中的concept具有更強的耦合。與基于GNN的VQA方法相比，本文在文本圖和視覺圖的結點之間做了soft matching。和注重泛化性的VQA方法（SAN、GVQA）相比，這些方法在unseen的對象屬性(cleverr - cogent)和語言結構模式(CLOSURE)的組合上沒有進行評估，泛化性能不夠好。

方法上，本文先將圖片和問題分別解析成圖，使用共享參數的圖神經網絡進行圖上的信息傳遞和結點特征更新。將最終得到的兩張圖（ $H_{G_s}$ 和 $H_{G_t}$ ）上的結點特征作矩陣乘法得到 $Φ^=HGsHGtT∈R∣Vs∣×∣Vt∣\hat{\Phi}=H_{G_s}H_{G_t}^T \in \mathbb{R}^{|V_s| \times |V_t|}$ ，再進行sinkhorn normalization得到 $Φ\Phi$ 。根據此矩陣，將文本特征投影到視覺空間 $hs′=Φhth_{s}^{'} = \Phi h_t$ ，將原視覺特征和投影過來的特征進行concat得到最終的多模態特征 $h_{s,t}=[h_s,h_{s}^{'}]$

得到多模態特征后，針對VQA任務，作者直接將多模態特征輸入傳統的Encoder-Decoder架構即可。

實驗部分，作者首先在二分類驗證問題上做了實驗。

然后在CLOSURE數據集上進行了實驗：

總結

以上是生活随笔為你收集整理的2021.02.23 Visual QA论文阅读的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Transformer、BERT学习笔记
下一篇： arXiv 2021《Transform

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活随笔

生活随笔

2021.02.23 Visual QA论文阅读

目錄

[2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answering

總結