當(dāng)前位置：首頁 >

EMNLP 2020 《MUTANT: A Training Paradigm for Out-of-Distribution Generalization in VQA》论文笔记

發(fā)布時(shí)間：2025/3/15 48 豆豆

生活随笔收集整理的這篇文章主要介紹了 EMNLP 2020 《MUTANT: A Training Paradigm for Out-of-Distribution Generalization in VQA》论文笔记小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

簡(jiǎn)介

論文鏈接

動(dòng)機(jī)

VQA中的語言先驗(yàn)問題，也可以說是OOD問題（Out-Of-Distribution）。使用額外的單獨(dú)分支減輕模型學(xué)得語言先驗(yàn)的一類方法試圖消除所有的Q-A bias，作者認(rèn)為這是適得其反的。而本文的出發(fā)點(diǎn)是讓模型關(guān)注正向bias，消除負(fù)面bias。正向bias如：對(duì)于“what is the color of xxx”問題，模型應(yīng)回答“顏色”類答案，負(fù)面bias如：“香蕉是黃色的”這種語言先驗(yàn)。

方法

在我個(gè)人看來，本文方法可視為一種數(shù)據(jù)增強(qiáng)。對(duì)于數(shù)據(jù)集中的一個(gè)樣本 $< Q, I, A >$ ，作者通過兩種方式進(jìn)行數(shù)據(jù)增強(qiáng)，即： $<Q,I,A>→<Q^,I,A^><Q, I, A> \rightarrow <\hat{Q}, I, \hat{A}>$ 和 $<Q,I,A>→<Q,I^,A^><Q, I, A> \rightarrow <Q, \hat{I}, \hat{A}>$ 。前者代表在問題 $Q$ 上進(jìn)行改變，構(gòu)造新的樣本對(duì)；后者代表在圖片 $I$ 上進(jìn)行改變，得到新的樣本對(duì)。那么本文方法的核心，其實(shí)可以分為三點(diǎn)：① 改變 $I$ 、② 改變 $Q$ 、③ 根據(jù)改變，生成對(duì)應(yīng)的答案。

改變 $I$
對(duì)于圖片的處理，作者分為兩種策略，一是抹除重要的object，二是改變重要object的顏色。首先定義，如何衡量object是否重要。作者使用的策略是——在 $Q$ 中提到的object視為重要。對(duì)于第一類，作者使用COCO數(shù)據(jù)集的mask標(biāo)注隨機(jī)抹除 $I$ 中的 $m$ 個(gè)object，然后使用基于GAN的inpainting方法對(duì)mask部分做一個(gè)平滑處理。對(duì)于第二類，將重要object做pixel level的換色即可。
改變 $Q$
對(duì)于問題的處理，作者分為三種策略，一是對(duì)“yes/no”問題的語義取反，這通過添加“no/not”即可實(shí)現(xiàn)。二是使用對(duì)抗單詞代替問題中的重要單詞，如將“Is the lady holding the baby?”改為“Is the cat holding the baby?”，這部分作者構(gòu)造了一個(gè)word list，并使用BERT計(jì)算word之間的相似度。替換時(shí)，使用 $I$ 中沒出現(xiàn)的、相似度最高的word進(jìn)行替換。三是對(duì)word進(jìn)行mask，使問題具有歧義性，如“Is the [MASK] holding the baby?”。
生成答案
抹除 $I$ 中的object：對(duì)于計(jì)數(shù)問題，將答案減去抹去的重要object個(gè)數(shù)；對(duì)于“yes/no”問題，當(dāng)所有重要object全部抹除時(shí)，答案會(huì)flip。
更改 $I$ 中重要object的顏色：對(duì)于顏色問題，更改答案。
對(duì)于改變 $Q$ 的前兩種策略：直接對(duì)答案取反。
對(duì)于改變 $Q$ 的第三種策略：作者使用k-means對(duì)數(shù)據(jù)集中的所有answer做了聚類，手動(dòng)調(diào)節(jié)至50個(gè)簇，將這50個(gè)簇進(jìn)行標(biāo)注，作為“廣義類”。如“紅色、黃色、綠色”等統(tǒng)稱為“顏色”類。

下面看一下模型的整體架構(gòu)。作者將 $A$ 和對(duì)應(yīng)的 $< Q, I >$ 多模態(tài)特征 $M$ 投影到一個(gè)流形上，投影后的特征稱為 $A_p$ 和 $M_p$ 。對(duì)于本文生成的樣本 $<Q^,I,A^><\hat{Q}, I, \hat{A}>$ （或 $<Q,I^,A^><Q, \hat{I}, \hat{A}>$ ）通過一樣的操作得到 $A^p\hat{A}_p$ 和 $M^p\hat{M}_p$ 。通過最小化 $∣∣dis(Ap,Mp)?dis(A^p?M^p)∣∣||dis(A_p, M_p)-dis(\hat{A}_p-\hat{M}_p)||$ 對(duì)模型進(jìn)行優(yōu)化。