日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ECCV 2020《TRRNet: Tiered Relation Reasoning for Compositional Visual Question Answering》论文笔记

發(fā)布時(shí)間:2025/3/15 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ECCV 2020《TRRNet: Tiered Relation Reasoning for Compositional Visual Question Answering》论文笔记 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

目錄

  • 簡介
  • 動(dòng)機(jī)
  • 貢獻(xiàn)
  • 方法
  • 實(shí)驗(yàn)

簡介

本文一作是南洋理工大學(xué)的Xiaofeng Yang。
文章鏈接

動(dòng)機(jī)

現(xiàn)有的VQA方法可以分為兩類,第一類側(cè)重于對視覺和語言的跨模態(tài)聯(lián)合建模,但是由于缺乏關(guān)系推理能力,在組合推理任務(wù)上的表現(xiàn)較差。第二類主要側(cè)重于神經(jīng)模塊的設(shè)計(jì),但是這類方法需要手工設(shè)計(jì),在real-world數(shù)據(jù)集上難以適用(具有過多的目標(biāo)類別和可能的推理action)。本文在VQA中引入關(guān)系推理,單純地基于圖片提取objects并建立它們之間的關(guān)系會(huì)帶來很大的噪聲,并且需要大量的計(jì)算資源。而實(shí)際上,一個(gè)question中一般不包括超過6個(gè)objects。

貢獻(xiàn)

  • 提出了新穎的分層注意力方法,由TRR units構(gòu)成TRR network,每個(gè)TRR units由四個(gè)部分組成:① root attention、② root to leaf attetnion passing module、③ leaf attention、④ message passing module,這四個(gè)模塊的作用后面再介紹。
  • 提出一個(gè)策略網(wǎng)絡(luò),能夠根據(jù)question和推理結(jié)果選擇最佳的推理步驟。
  • 在GQA test2019上準(zhǔn)確率為60.74,在VQAv2和CLEVR上效果也還不錯(cuò)。

方法

本文方法的主要思想如下圖所示。首先,在object-level上做一個(gè)注意力,得到一些候選objects,再將這些候選objects進(jìn)一步細(xì)分,得到相關(guān)、不相關(guān)兩類objects,不相關(guān)的objects直接丟棄,相關(guān)的objects之間建立兩兩關(guān)系。

本文具體方法如下圖所示,本質(zhì)是TRR units的堆疊。每個(gè)TRR unit包含四個(gè)部分:① root attention、② root to leaf attetnion passing module、③ leaf attention、④ message passing module,下面分別進(jìn)行介紹。

  • ① root attention。這部分基于object特征VVV、bbox特征BBB和word特征EEE生成object-level的注意力αobject\alpha ^{object}αobject,和object特征融合后,得到融合的object特征OrootO^{root}Oroot作為輸出。
  • ② root to leaf attetnion passing module。這部分和OrootO^{root}Oroot沒有什么關(guān)系,和αobject\alpha ^{object}αobject有關(guān)系。這部分首先基于αobject\alpha ^{object}αobject、object特征VVV和超參數(shù)KKK選出KKK個(gè)object,然后將得到的object特征和其對應(yīng)的bbox特征concat一下,再兩兩建立關(guān)系,得到關(guān)系特征RRR
  • ③ leaf attention。這部分首先基于question embedding eee、關(guān)系特征RRR做一些fc后得到特征hhh,再基于hhh使用softmax得到relation-level注意力αrelation\alpha ^{relation}αrelation,將注意力和關(guān)系特征結(jié)合,得到OleafO^{leaf}Oleaf作為輸出。
  • ④ message passing module。由于要實(shí)現(xiàn)多步推理,這個(gè)模塊的主要作用是,將OleafO^{leaf}Oleaf和object特征VVV結(jié)合,得到下一次迭代過程中的輸入VnewV_{new}Vnew?

綜上,每個(gè)TRR unit的處理過程可以總結(jié)為:
Otroot,Otleaf,Vt+1=TRRt(B,Vt,E)O^{root}_{t}, O^{leaf}_{t}, V_{t+1} = TRR_{t}(B, V_t, E)Otroot?,Otleaf?,Vt+1?=TRRt?(B,Vt?,E)
至于什么時(shí)候停止推理,作者設(shè)計(jì)了策略網(wǎng)絡(luò),結(jié)合OtrootO^{root}_{t}Otroot?、word特征EEE和當(dāng)前推理次數(shù)ttt共同決定。當(dāng)停止推理后,基于OtrootO^{root}_{t}Otroot?OtleafO^{leaf}_{t}Otleaf?EEE得到最終答案。

實(shí)驗(yàn)

在GQA test2019上的實(shí)驗(yàn)結(jié)果:

一些可視化的實(shí)驗(yàn)結(jié)果:

總結(jié)

以上是生活随笔為你收集整理的ECCV 2020《TRRNet: Tiered Relation Reasoning for Compositional Visual Question Answering》论文笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。