VD-BERT:用BERT搭建统一的视觉对话模型
論文標(biāo)題:
VD-BERT: A Unified Vision and Dialog Transformer with BERT
論文作者:
Yue Wang, Shafiq Joty, Michael R. Lyu, Irwin King, Caiming Xiong, Steven C.H. Hoi
論文鏈接:
https://arxiv.org/abs/2004.13278
視覺(jué)對(duì)話(Visual Dialog)指的是給定一張圖、它的標(biāo)題和問(wèn)題,我們需要給出這個(gè)問(wèn)題的答案,在VD中,對(duì)話往往有多輪,而后面的問(wèn)題會(huì)和前面的對(duì)話相關(guān)。
本文提出統(tǒng)一的視覺(jué)對(duì)話VD-BERT模型,聯(lián)合編碼視覺(jué)信息和文本信息,既適用于判別式方法,也適用于生成式方法。VD-BERT在視覺(jué)對(duì)話數(shù)據(jù)集VisDial實(shí)現(xiàn)了單個(gè)模型和集成模型上的最佳效果。
視覺(jué)對(duì)話
人類感知世界是“多模態(tài)”的而非“單模態(tài)”,學(xué)習(xí)知識(shí)也是在多模態(tài)的條件下進(jìn)行的。
在所有的感知模態(tài)中,視覺(jué)和文本(語(yǔ)言),是其中最為重要的兩類,而文本又是人類所獨(dú)有的能力。
通過(guò)將視覺(jué)感知到的內(nèi)容轉(zhuǎn)換為文本信息,是我們了解世界的重要途徑。視覺(jué)對(duì)話任務(wù)就是在模擬這個(gè)過(guò)程。
給定一副圖片(或視頻等視覺(jué)內(nèi)容)和一個(gè)問(wèn)題,我們可以根據(jù)圖片內(nèi)容去回答這個(gè)問(wèn)題。
之后,我們還可以連續(xù)問(wèn)若干問(wèn)題,每個(gè)問(wèn)題都有回答,如此根據(jù)圖片和之前的對(duì)話進(jìn)行下一輪對(duì)話,就是視覺(jué)對(duì)話,而找到每個(gè)問(wèn)題的答案,就是視覺(jué)對(duì)話的目標(biāo)。
這可以形式化為:
其中是視覺(jué)信息,是視覺(jué)信息的說(shuō)明(如標(biāo)題),是第輪的問(wèn)題,是第輪的回答。
有兩種方法可以找到,一是“判別式”——從給定的一些回答候選中選一個(gè),二是“生成式”——直接生成回答。
從上式可以看到,視覺(jué)對(duì)話實(shí)際上有四個(gè)部分:視覺(jué)信息V,對(duì)話歷史H,當(dāng)前問(wèn)題Q和當(dāng)前回答A。
過(guò)去對(duì)視覺(jué)對(duì)話的研究大都采用注意力的方法,讓回答A去關(guān)注Q,V和H。然而,這種方法不能直接讓V和H之間建立聯(lián)系,從而可能忽略過(guò)去的對(duì)話內(nèi)容。
基于此,本文提出VD-BERT,用BERT去建模多個(gè)部分的聯(lián)系,任意兩個(gè)部分之間就可以通過(guò)自注意力完成交互,從而不丟失歷史對(duì)話信息,如下圖所示:
和BERT一樣,本文使用MLM和NSP兩個(gè)訓(xùn)練任務(wù)去訓(xùn)練VD-BERT,然后再通過(guò)Rank的方法微調(diào)VD-BERT,從而可以使用一個(gè)模型同時(shí)完成判別式和生成式兩種生成方法。
總的來(lái)說(shuō),本文貢獻(xiàn)如下:
使用預(yù)訓(xùn)練的BERT作為視覺(jué)對(duì)話模型,并通過(guò)MLM和NSP的訓(xùn)練得到一個(gè)統(tǒng)一模型;
在VisDial數(shù)據(jù)集上實(shí)現(xiàn)了單個(gè)模型和集成模型二者的最優(yōu)結(jié)果;
可以同時(shí)應(yīng)用在判別式和生成式兩種生成方法上。
VD-BERT
VD-BERT的結(jié)構(gòu)和流程十分簡(jiǎn)單。下圖是VD-BERT的模型結(jié)構(gòu):
模型流程分為幾步:得到視覺(jué)表征,得到文本表征,模型訓(xùn)練,模型微調(diào)。
視覺(jué)表征
本文使用Faster R-CNN得到36個(gè)對(duì)象視覺(jué)表征,用于編碼圖片的視覺(jué)信息,記為。這些特征將作為BERT的輸入的一部分。
文本表征
為了編碼文本信息并讓其和視覺(jué)信息充分結(jié)合,本文按照BERT,把歷史對(duì)話以[EOT]為分隔符拼接起來(lái),作為VD-BERT的文本部分,從而得到,其中是一個(gè)候選回答。
模型訓(xùn)練
在得到視覺(jué)輸入和文本輸入后,把這兩個(gè)再拼接起來(lái)作為VD-BERT整個(gè)的輸入,得到。注意到,我們使用了預(yù)訓(xùn)練的BERT去初始化VD-BERT,讓它得到一些文本的先驗(yàn)知識(shí)。
為了訓(xùn)練VD-BERT,本文提出兩個(gè),也是BERT所提出的訓(xùn)練任務(wù):MLM和NSP。MLM和BERT一致,隨機(jī)掩碼文本部分15%的詞,讓模型去預(yù)測(cè)它。
NSP有所不同,VD-BERT所做的是,讓模型的[CLS]去預(yù)測(cè)當(dāng)前的候選回答是不是真正的回答,即輸出一個(gè)0-1之間的概率。
對(duì)于判別式方法,只需要從候選回答集中采樣一些回答,然后再用NSP去預(yù)測(cè)是否正確即可;對(duì)于生成式方法,只需要一步一步預(yù)測(cè)即可,類似自回歸模型。
模型微調(diào)
除了一個(gè)回答是否是正確答案之外(0或1),VisDial v1.0還為每個(gè)候選答案給出了相關(guān)性得分,用于評(píng)判每個(gè)答案和正確答案之間的語(yǔ)義相關(guān)性,得分范圍為0-1之間。于是,VD-BERT就可以使用NSP在此基礎(chǔ)上進(jìn)一步微調(diào),而在推理的時(shí)候,只需要選擇得分最大的那個(gè)答案即可。
實(shí)驗(yàn)
本文在視覺(jué)對(duì)話數(shù)據(jù)集VisDial v0.9和VisDial v1.0上實(shí)驗(yàn),使用BERT-base作為VD-BERT骨干,使用Recall@K、MRR、Mean Rank和NDCG作為測(cè)評(píng)指標(biāo),其他實(shí)驗(yàn)細(xì)節(jié)詳見(jiàn)原文。
下表是在VisDial v1.0上的結(jié)果,可以看到,VD-BERT在幾乎所有指標(biāo)上都超越了之前的模型。
特別注意到,微調(diào)的VD-BERT(*)只在NDCG上表現(xiàn)更好,而在其他指標(biāo)上表現(xiàn)更差,這是因?yàn)镹DCG衡量的回答的相關(guān)度,微調(diào)可以提高其表現(xiàn),但是反而降低了在其他指標(biāo)上的效果。
下表是在VisDial v0.9上的結(jié)果,可以看到,無(wú)論是判別式方法還是生成式方法,VD-BERT都能取得一致更好的效果。
下面來(lái)看看視覺(jué)信息和文本信息的交互情況。從下圖可以看到,文本和圖片中的對(duì)象是對(duì)應(yīng)的。motorcycle關(guān)注了5和8(都是motorcycle),而he關(guān)注了4(人),helmet關(guān)注了4和8。
小結(jié)
本文提出VD-BERT,使用預(yù)訓(xùn)練的BERT作為統(tǒng)一的視覺(jué)對(duì)話模型,通過(guò)MLM和NSP的訓(xùn)練,VD-BERT能夠很好建模視覺(jué)信息和文本信息及其之間的相互聯(lián)系。
VD-BERT簡(jiǎn)單有效,不需要任何模型結(jié)構(gòu)設(shè)計(jì),也不需要多余的損失函數(shù)優(yōu)化,更不需要額外的標(biāo)注數(shù)據(jù),就能實(shí)現(xiàn)SOTA表現(xiàn)。
多模態(tài)是近些年發(fā)展很快的一個(gè)領(lǐng)域,因?yàn)楹腿祟惈@取信息的過(guò)程更接近,多模態(tài)能夠更大地推動(dòng)CV和NLP在現(xiàn)實(shí)的應(yīng)用和落地。更好、更快的多模態(tài)模型是未來(lái)的一個(gè)持續(xù)性研究方向。
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的VD-BERT:用BERT搭建统一的视觉对话模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Q弹草莓酸奶冻?
- 下一篇: CnGAN:面向跨网用户偏好推荐的生成对