2021.02.23 Visual QA论文阅读
目錄
- [2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answering
[2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answering
文章鏈接
本文的動機(jī)很明確,就是組合泛化。什么是組合泛化?在測試集中出現(xiàn)了訓(xùn)練集中沒有出現(xiàn)過的“組合”。如:訓(xùn)練集中有“紅色的狗”、“綠色的貓”,但是測試集中的數(shù)據(jù)是“紅色的貓”。
在相關(guān)工作中,作者首先分析了基于神經(jīng)符號的VQA方法,典型的方法如NMNs、NS-VQA和NS-CL。這些方法在組合泛化上也具有不錯的性能,與它們相比,本文的優(yōu)勢在于,使用概率因子圖和圖神經(jīng)網(wǎng)絡(luò)使兩種模態(tài)中的concept具有更強(qiáng)的耦合。與基于GNN的VQA方法相比,本文在文本圖和視覺圖的結(jié)點(diǎn)之間做了soft matching。和注重泛化性的VQA方法(SAN、GVQA)相比,這些方法在unseen的對象屬性(cleverr - cogent)和語言結(jié)構(gòu)模式(CLOSURE)的組合上沒有進(jìn)行評估,泛化性能不夠好。
方法上,本文先將圖片和問題分別解析成圖,使用共享參數(shù)的圖神經(jīng)網(wǎng)絡(luò)進(jìn)行圖上的信息傳遞和結(jié)點(diǎn)特征更新。將最終得到的兩張圖(HGsH_{G_s}HGs??和HGtH_{G_t}HGt??)上的結(jié)點(diǎn)特征作矩陣乘法得到Φ^=HGsHGtT∈R∣Vs∣×∣Vt∣\hat{\Phi}=H_{G_s}H_{G_t}^T \in \mathbb{R}^{|V_s| \times |V_t|}Φ^=HGs??HGt?T?∈R∣Vs?∣×∣Vt?∣,再進(jìn)行sinkhorn normalization得到Φ\PhiΦ。根據(jù)此矩陣,將文本特征投影到視覺空間hs′=Φhth_{s}^{'} = \Phi h_ths′?=Φht?,將原視覺特征和投影過來的特征進(jìn)行concat得到最終的多模態(tài)特征hs,t=[hs,hs′]h_{s,t}=[h_s,h_{s}^{'}]hs,t?=[hs?,hs′?]
得到多模態(tài)特征后,針對VQA任務(wù),作者直接將多模態(tài)特征輸入傳統(tǒng)的Encoder-Decoder架構(gòu)即可。
實(shí)驗(yàn)部分,作者首先在二分類驗(yàn)證問題上做了實(shí)驗(yàn)。
然后在CLOSURE數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):
總結(jié)
以上是生活随笔為你收集整理的2021.02.23 Visual QA论文阅读的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Transformer、BERT学习笔记
- 下一篇: arXiv 2021《Transform