當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ECCV 2020《TRRNet: Tiered Relation Reasoning for Compositional Visual Question Answering》论文笔记

發(fā)布時(shí)間：2025/3/15 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 ECCV 2020《TRRNet: Tiered Relation Reasoning for Compositional Visual Question Answering》论文笔记小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

簡介

本文一作是南洋理工大學(xué)的Xiaofeng Yang。
文章鏈接

動(dòng)機(jī)

現(xiàn)有的VQA方法可以分為兩類，第一類側(cè)重于對視覺和語言的跨模態(tài)聯(lián)合建模，但是由于缺乏關(guān)系推理能力，在組合推理任務(wù)上的表現(xiàn)較差。第二類主要側(cè)重于神經(jīng)模塊的設(shè)計(jì)，但是這類方法需要手工設(shè)計(jì)，在real-world數(shù)據(jù)集上難以適用（具有過多的目標(biāo)類別和可能的推理action）。本文在VQA中引入關(guān)系推理，單純地基于圖片提取objects并建立它們之間的關(guān)系會(huì)帶來很大的噪聲，并且需要大量的計(jì)算資源。而實(shí)際上，一個(gè)question中一般不包括超過6個(gè)objects。

貢獻(xiàn)

提出了新穎的分層注意力方法，由TRR units構(gòu)成TRR network，每個(gè)TRR units由四個(gè)部分組成：① root attention、② root to leaf attetnion passing module、③ leaf attention、④ message passing module，這四個(gè)模塊的作用后面再介紹。
提出一個(gè)策略網(wǎng)絡(luò)，能夠根據(jù)question和推理結(jié)果選擇最佳的推理步驟。
在GQA test2019上準(zhǔn)確率為60.74，在VQAv2和CLEVR上效果也還不錯(cuò)。

方法

本文方法的主要思想如下圖所示。首先，在object-level上做一個(gè)注意力，得到一些候選objects，再將這些候選objects進(jìn)一步細(xì)分，得到相關(guān)、不相關(guān)兩類objects，不相關(guān)的objects直接丟棄，相關(guān)的objects之間建立兩兩關(guān)系。

本文具體方法如下圖所示，本質(zhì)是TRR units的堆疊。每個(gè)TRR unit包含四個(gè)部分：① root attention、② root to leaf attetnion passing module、③ leaf attention、④ message passing module，下面分別進(jìn)行介紹。

① root attention。這部分基于object特征 $V$ 、bbox特征 $B$ 和word特征 $E$ 生成object-level的注意力 $αobject\alpha ^{object}$ ，和object特征融合后，得到融合的object特征 $O^{root}$ 作為輸出。
② root to leaf attetnion passing module。這部分和 $O^{root}$ 沒有什么關(guān)系，和 $αobject\alpha ^{object}$ 有關(guān)系。這部分首先基于 $αobject\alpha ^{object}$ 、object特征 $V$ 和超參數(shù) $K$ 選出 $K$ 個(gè)object，然后將得到的object特征和其對應(yīng)的bbox特征concat一下，再兩兩建立關(guān)系，得到關(guān)系特征 $R$ 。
③ leaf attention。這部分首先基于question embedding $e$ 、關(guān)系特征 $R$ 做一些fc后得到特征 $h$ ，再基于 $h$ 使用softmax得到relation-level注意力 $αrelation\alpha ^{relation}$ ，將注意力和關(guān)系特征結(jié)合，得到 $O^{leaf}$ 作為輸出。
④ message passing module。由于要實(shí)現(xiàn)多步推理，這個(gè)模塊的主要作用是，將 $O^{leaf}$ 和object特征 $V$ 結(jié)合，得到下一次迭代過程中的輸入 $V_{new}$ 。

綜上，每個(gè)TRR unit的處理過程可以總結(jié)為：
$Otroot,Otleaf,Vt+1=TRRt(B,Vt,E)O^{root}_{t}, O^{leaf}_{t}, V_{t+1} = TRR_{t}(B, V_t, E)$
至于什么時(shí)候停止推理，作者設(shè)計(jì)了策略網(wǎng)絡(luò)，結(jié)合 $OtrootO^{root}_{t}$ 、word特征 $E$ 和當(dāng)前推理次數(shù) $t$ 共同決定。當(dāng)停止推理后，基于 $OtrootO^{root}_{t}$ 、 $OtleafO^{leaf}_{t}$ 和 $E$ 得到最終答案。

實(shí)驗(yàn)

在GQA test2019上的實(shí)驗(yàn)結(jié)果：

一些可視化的實(shí)驗(yàn)結(jié)果：

總結(jié)

以上是生活随笔為你收集整理的ECCV 2020《TRRNet: Tiered Relation Reasoning for Compositional Visual Question Answering》论文笔记的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Video Question Answe
下一篇： 2021.01.29 Visual QA