日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

2021.02.23 Visual QA论文阅读

發布時間:2025/3/15 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2021.02.23 Visual QA论文阅读 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • [2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answering

[2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answering

文章鏈接
本文的動機很明確,就是組合泛化。什么是組合泛化?在測試集中出現了訓練集中沒有出現過的“組合”。如:訓練集中有“紅色的狗”、“綠色的貓”,但是測試集中的數據是“紅色的貓”。

在相關工作中,作者首先分析了基于神經符號的VQA方法,典型的方法如NMNs、NS-VQA和NS-CL。這些方法在組合泛化上也具有不錯的性能,與它們相比,本文的優勢在于,使用概率因子圖和圖神經網絡使兩種模態中的concept具有更強的耦合。與基于GNN的VQA方法相比,本文在文本圖和視覺圖的結點之間做了soft matching。和注重泛化性的VQA方法(SAN、GVQA)相比,這些方法在unseen的對象屬性(cleverr - cogent)和語言結構模式(CLOSURE)的組合上沒有進行評估,泛化性能不夠好。

方法上,本文先將圖片和問題分別解析成圖,使用共享參數的圖神經網絡進行圖上的信息傳遞和結點特征更新。將最終得到的兩張圖(HGsH_{G_s}HGs??HGtH_{G_t}HGt??)上的結點特征作矩陣乘法得到Φ^=HGsHGtT∈R∣Vs∣×∣Vt∣\hat{\Phi}=H_{G_s}H_{G_t}^T \in \mathbb{R}^{|V_s| \times |V_t|}Φ^=HGs??HGt?T?RVs?×Vt?,再進行sinkhorn normalization得到Φ\PhiΦ。根據此矩陣,將文本特征投影到視覺空間hs′=Φhth_{s}^{'} = \Phi h_ths?=Φht?,將原視覺特征和投影過來的特征進行concat得到最終的多模態特征hs,t=[hs,hs′]h_{s,t}=[h_s,h_{s}^{'}]hs,t?=[hs?,hs?]

得到多模態特征后,針對VQA任務,作者直接將多模態特征輸入傳統的Encoder-Decoder架構即可。

實驗部分,作者首先在二分類驗證問題上做了實驗。


然后在CLOSURE數據集上進行了實驗:


總結

以上是生活随笔為你收集整理的2021.02.23 Visual QA论文阅读的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。