ECCV 2020《TRRNet: Tiered Relation Reasoning for Compositional Visual Question Answering》论文笔记
目錄
- 簡介
- 動(dòng)機(jī)
- 貢獻(xiàn)
- 方法
- 實(shí)驗(yàn)
簡介
本文一作是南洋理工大學(xué)的Xiaofeng Yang。
文章鏈接
動(dòng)機(jī)
現(xiàn)有的VQA方法可以分為兩類,第一類側(cè)重于對視覺和語言的跨模態(tài)聯(lián)合建模,但是由于缺乏關(guān)系推理能力,在組合推理任務(wù)上的表現(xiàn)較差。第二類主要側(cè)重于神經(jīng)模塊的設(shè)計(jì),但是這類方法需要手工設(shè)計(jì),在real-world數(shù)據(jù)集上難以適用(具有過多的目標(biāo)類別和可能的推理action)。本文在VQA中引入關(guān)系推理,單純地基于圖片提取objects并建立它們之間的關(guān)系會(huì)帶來很大的噪聲,并且需要大量的計(jì)算資源。而實(shí)際上,一個(gè)question中一般不包括超過6個(gè)objects。
貢獻(xiàn)
- 提出了新穎的分層注意力方法,由TRR units構(gòu)成TRR network,每個(gè)TRR units由四個(gè)部分組成:① root attention、② root to leaf attetnion passing module、③ leaf attention、④ message passing module,這四個(gè)模塊的作用后面再介紹。
- 提出一個(gè)策略網(wǎng)絡(luò),能夠根據(jù)question和推理結(jié)果選擇最佳的推理步驟。
- 在GQA test2019上準(zhǔn)確率為60.74,在VQAv2和CLEVR上效果也還不錯(cuò)。
方法
本文方法的主要思想如下圖所示。首先,在object-level上做一個(gè)注意力,得到一些候選objects,再將這些候選objects進(jìn)一步細(xì)分,得到相關(guān)、不相關(guān)兩類objects,不相關(guān)的objects直接丟棄,相關(guān)的objects之間建立兩兩關(guān)系。
本文具體方法如下圖所示,本質(zhì)是TRR units的堆疊。每個(gè)TRR unit包含四個(gè)部分:① root attention、② root to leaf attetnion passing module、③ leaf attention、④ message passing module,下面分別進(jìn)行介紹。
- ① root attention。這部分基于object特征VVV、bbox特征BBB和word特征EEE生成object-level的注意力αobject\alpha ^{object}αobject,和object特征融合后,得到融合的object特征OrootO^{root}Oroot作為輸出。
- ② root to leaf attetnion passing module。這部分和OrootO^{root}Oroot沒有什么關(guān)系,和αobject\alpha ^{object}αobject有關(guān)系。這部分首先基于αobject\alpha ^{object}αobject、object特征VVV和超參數(shù)KKK選出KKK個(gè)object,然后將得到的object特征和其對應(yīng)的bbox特征concat一下,再兩兩建立關(guān)系,得到關(guān)系特征RRR。
- ③ leaf attention。這部分首先基于question embedding eee、關(guān)系特征RRR做一些fc后得到特征hhh,再基于hhh使用softmax得到relation-level注意力αrelation\alpha ^{relation}αrelation,將注意力和關(guān)系特征結(jié)合,得到OleafO^{leaf}Oleaf作為輸出。
- ④ message passing module。由于要實(shí)現(xiàn)多步推理,這個(gè)模塊的主要作用是,將OleafO^{leaf}Oleaf和object特征VVV結(jié)合,得到下一次迭代過程中的輸入VnewV_{new}Vnew?。
綜上,每個(gè)TRR unit的處理過程可以總結(jié)為:
Otroot,Otleaf,Vt+1=TRRt(B,Vt,E)O^{root}_{t}, O^{leaf}_{t}, V_{t+1} = TRR_{t}(B, V_t, E)Otroot?,Otleaf?,Vt+1?=TRRt?(B,Vt?,E)
至于什么時(shí)候停止推理,作者設(shè)計(jì)了策略網(wǎng)絡(luò),結(jié)合OtrootO^{root}_{t}Otroot?、word特征EEE和當(dāng)前推理次數(shù)ttt共同決定。當(dāng)停止推理后,基于OtrootO^{root}_{t}Otroot?、OtleafO^{leaf}_{t}Otleaf?和EEE得到最終答案。
實(shí)驗(yàn)
在GQA test2019上的實(shí)驗(yàn)結(jié)果:
一些可視化的實(shí)驗(yàn)結(jié)果:
總結(jié)
以上是生活随笔為你收集整理的ECCV 2020《TRRNet: Tiered Relation Reasoning for Compositional Visual Question Answering》论文笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Video Question Answe
- 下一篇: 2021.01.29 Visual QA