日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2021.02.23 Visual QA论文阅读

發(fā)布時間:2025/3/15 编程问答 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2021.02.23 Visual QA论文阅读 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

目錄

  • [2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answering

[2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answering

文章鏈接
本文的動機(jī)很明確,就是組合泛化。什么是組合泛化?在測試集中出現(xiàn)了訓(xùn)練集中沒有出現(xiàn)過的“組合”。如:訓(xùn)練集中有“紅色的狗”、“綠色的貓”,但是測試集中的數(shù)據(jù)是“紅色的貓”。

在相關(guān)工作中,作者首先分析了基于神經(jīng)符號的VQA方法,典型的方法如NMNs、NS-VQA和NS-CL。這些方法在組合泛化上也具有不錯的性能,與它們相比,本文的優(yōu)勢在于,使用概率因子圖和圖神經(jīng)網(wǎng)絡(luò)使兩種模態(tài)中的concept具有更強(qiáng)的耦合。與基于GNN的VQA方法相比,本文在文本圖和視覺圖的結(jié)點(diǎn)之間做了soft matching。和注重泛化性的VQA方法(SAN、GVQA)相比,這些方法在unseen的對象屬性(cleverr - cogent)和語言結(jié)構(gòu)模式(CLOSURE)的組合上沒有進(jìn)行評估,泛化性能不夠好。

方法上,本文先將圖片和問題分別解析成圖,使用共享參數(shù)的圖神經(jīng)網(wǎng)絡(luò)進(jìn)行圖上的信息傳遞和結(jié)點(diǎn)特征更新。將最終得到的兩張圖(HGsH_{G_s}HGs??HGtH_{G_t}HGt??)上的結(jié)點(diǎn)特征作矩陣乘法得到Φ^=HGsHGtT∈R∣Vs∣×∣Vt∣\hat{\Phi}=H_{G_s}H_{G_t}^T \in \mathbb{R}^{|V_s| \times |V_t|}Φ^=HGs??HGt?T?RVs?×Vt?,再進(jìn)行sinkhorn normalization得到Φ\PhiΦ。根據(jù)此矩陣,將文本特征投影到視覺空間hs′=Φhth_{s}^{'} = \Phi h_ths?=Φht?,將原視覺特征和投影過來的特征進(jìn)行concat得到最終的多模態(tài)特征hs,t=[hs,hs′]h_{s,t}=[h_s,h_{s}^{'}]hs,t?=[hs?,hs?]

得到多模態(tài)特征后,針對VQA任務(wù),作者直接將多模態(tài)特征輸入傳統(tǒng)的Encoder-Decoder架構(gòu)即可。

實(shí)驗(yàn)部分,作者首先在二分類驗(yàn)證問題上做了實(shí)驗(yàn)。


然后在CLOSURE數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):


總結(jié)

以上是生活随笔為你收集整理的2021.02.23 Visual QA论文阅读的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。