日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

EMNLP 2020 《MUTANT: A Training Paradigm for Out-of-Distribution Generalization in VQA》论文笔记

發布時間:2025/3/15 编程问答 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 EMNLP 2020 《MUTANT: A Training Paradigm for Out-of-Distribution Generalization in VQA》论文笔记 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • 簡介
  • 動機
  • 方法
  • 實驗

簡介

論文鏈接

動機

VQA中的語言先驗問題,也可以說是OOD問題(Out-Of-Distribution)。使用額外的單獨分支減輕模型學得語言先驗的一類方法試圖消除所有的Q-A bias,作者認為這是適得其反的。而本文的出發點是讓模型關注正向bias,消除負面bias。正向bias如:對于“what is the color of xxx”問題,模型應回答“顏色”類答案,負面bias如:“香蕉是黃色的”這種語言先驗。

方法

在我個人看來,本文方法可視為一種數據增強。對于數據集中的一個樣本<Q,I,A><Q, I, A><Q,I,A>,作者通過兩種方式進行數據增強,即:<Q,I,A>→<Q^,I,A^><Q, I, A> \rightarrow <\hat{Q}, I, \hat{A}><Q,I,A><Q^?,I,A^><Q,I,A>→<Q,I^,A^><Q, I, A> \rightarrow <Q, \hat{I}, \hat{A}><Q,I,A><Q,I^,A^>。前者代表在問題QQQ上進行改變,構造新的樣本對;后者代表在圖片III上進行改變,得到新的樣本對。那么本文方法的核心,其實可以分為三點:① 改變III、② 改變QQQ、③ 根據改變,生成對應的答案。

  • 改變III
    對于圖片的處理,作者分為兩種策略,一是抹除重要的object,二是改變重要object的顏色。首先定義,如何衡量object是否重要。作者使用的策略是——在QQQ中提到的object視為重要。對于第一類,作者使用COCO數據集的mask標注隨機抹除III中的mmm個object,然后使用基于GAN的inpainting方法對mask部分做一個平滑處理。對于第二類,將重要object做pixel level的換色即可。

  • 改變QQQ
    對于問題的處理,作者分為三種策略,一是對“yes/no”問題的語義取反,這通過添加“no/not”即可實現。二是使用對抗單詞代替問題中的重要單詞,如將“Is the lady holding the baby?”改為“Is the cat holding the baby?”,這部分作者構造了一個word list,并使用BERT計算word之間的相似度。替換時,使用III中沒出現的、相似度最高的word進行替換。三是對word進行mask,使問題具有歧義性,如“Is the [MASK] holding the baby?”。

  • 生成答案
    抹除III中的object:對于計數問題,將答案減去抹去的重要object個數;對于“yes/no”問題,當所有重要object全部抹除時,答案會flip。
    更改III中重要object的顏色:對于顏色問題,更改答案。
    對于改變QQQ的前兩種策略:直接對答案取反。
    對于改變QQQ的第三種策略:作者使用k-means對數據集中的所有answer做了聚類,手動調節至50個簇,將這50個簇進行標注,作為“廣義類”。如“紅色、黃色、綠色”等統稱為“顏色”類。

下面看一下模型的整體架構。作者將AAA和對應的<Q,I><Q, I><Q,I>多模態特征MMM投影到一個流形上,投影后的特征稱為ApA_pAp?MpM_pMp?。對于本文生成的樣本<Q^,I,A^><\hat{Q}, I, \hat{A}><Q^?,I,A^>(或<Q,I^,A^><Q, \hat{I}, \hat{A}><Q,I^,A^>)通過一樣的操作得到A^p\hat{A}_pA^p?M^p\hat{M}_pM^p?。通過最小化∣∣dis(Ap,Mp)?dis(A^p?M^p)∣∣||dis(A_p, M_p)-dis(\hat{A}_p-\hat{M}_p)||dis(Ap?,Mp?)?dis(A^p??M^p?)對模型進行優化。

實驗

主要看下在VQA-CP v2上的實驗,結果可以說是非常好了。

總結

以上是生活随笔為你收集整理的EMNLP 2020 《MUTANT: A Training Paradigm for Out-of-Distribution Generalization in VQA》论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。