當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

VD-BERT：用BERT搭建统一的视觉对话模型

發(fā)布時(shí)間：2024/10/8 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了 VD-BERT：用BERT搭建统一的视觉对话模型小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文標(biāo)題：

VD-BERT: A Unified Vision and Dialog Transformer with BERT

論文作者：

Yue Wang, Shafiq Joty, Michael R. Lyu, Irwin King, Caiming Xiong, Steven C.H. Hoi

論文鏈接：

https://arxiv.org/abs/2004.13278

視覺(jué)對(duì)話（Visual Dialog）指的是給定一張圖、它的標(biāo)題和問(wèn)題，我們需要給出這個(gè)問(wèn)題的答案，在VD中，對(duì)話往往有多輪，而后面的問(wèn)題會(huì)和前面的對(duì)話相關(guān)。

本文提出統(tǒng)一的視覺(jué)對(duì)話VD-BERT模型，聯(lián)合編碼視覺(jué)信息和文本信息，既適用于判別式方法，也適用于生成式方法。VD-BERT在視覺(jué)對(duì)話數(shù)據(jù)集VisDial實(shí)現(xiàn)了單個(gè)模型和集成模型上的最佳效果。

視覺(jué)對(duì)話

人類感知世界是“多模態(tài)”的而非“單模態(tài)”，學(xué)習(xí)知識(shí)也是在多模態(tài)的條件下進(jìn)行的。

在所有的感知模態(tài)中，視覺(jué)和文本（語(yǔ)言），是其中最為重要的兩類，而文本又是人類所獨(dú)有的能力。

通過(guò)將視覺(jué)感知到的內(nèi)容轉(zhuǎn)換為文本信息，是我們了解世界的重要途徑。視覺(jué)對(duì)話任務(wù)就是在模擬這個(gè)過(guò)程。

給定一副圖片（或視頻等視覺(jué)內(nèi)容）和一個(gè)問(wèn)題，我們可以根據(jù)圖片內(nèi)容去回答這個(gè)問(wèn)題。

之后，我們還可以連續(xù)問(wèn)若干問(wèn)題，每個(gè)問(wèn)題都有回答，如此根據(jù)圖片和之前的對(duì)話進(jìn)行下一輪對(duì)話，就是視覺(jué)對(duì)話，而找到每個(gè)問(wèn)題的答案，就是視覺(jué)對(duì)話的目標(biāo)。

這可以形式化為：

其中是視覺(jué)信息，是視覺(jué)信息的說(shuō)明（如標(biāo)題），是第輪的問(wèn)題，是第輪的回答。

有兩種方法可以找到，一是“判別式”——從給定的一些回答候選中選一個(gè)，二是“生成式”——直接生成回答。

從上式可以看到，視覺(jué)對(duì)話實(shí)際上有四個(gè)部分：視覺(jué)信息V，對(duì)話歷史H，當(dāng)前問(wèn)題Q和當(dāng)前回答A。

過(guò)去對(duì)視覺(jué)對(duì)話的研究大都采用注意力的方法，讓回答A去關(guān)注Q,V和H。然而，這種方法不能直接讓V和H之間建立聯(lián)系，從而可能忽略過(guò)去的對(duì)話內(nèi)容。

基于此，本文提出VD-BERT，用BERT去建模多個(gè)部分的聯(lián)系，任意兩個(gè)部分之間就可以通過(guò)自注意力完成交互，從而不丟失歷史對(duì)話信息，如下圖所示：

和BERT一樣，本文使用MLM和NSP兩個(gè)訓(xùn)練任務(wù)去訓(xùn)練VD-BERT，然后再通過(guò)Rank的方法微調(diào)VD-BERT，從而可以使用一個(gè)模型同時(shí)完成判別式和生成式兩種生成方法。

總的來(lái)說(shuō)，本文貢獻(xiàn)如下：

使用預(yù)訓(xùn)練的BERT作為視覺(jué)對(duì)話模型，并通過(guò)MLM和NSP的訓(xùn)練得到一個(gè)統(tǒng)一模型；
在VisDial數(shù)據(jù)集上實(shí)現(xiàn)了單個(gè)模型和集成模型二者的最優(yōu)結(jié)果；
可以同時(shí)應(yīng)用在判別式和生成式兩種生成方法上。

VD-BERT

VD-BERT的結(jié)構(gòu)和流程十分簡(jiǎn)單。下圖是VD-BERT的模型結(jié)構(gòu)：

模型流程分為幾步：得到視覺(jué)表征，得到文本表征，模型訓(xùn)練，模型微調(diào)。

視覺(jué)表征

本文使用Faster R-CNN得到36個(gè)對(duì)象視覺(jué)表征，用于編碼圖片的視覺(jué)信息，記為。這些特征將作為BERT的輸入的一部分。

文本表征

為了編碼文本信息并讓其和視覺(jué)信息充分結(jié)合，本文按照BERT，把歷史對(duì)話以[EOT]為分隔符拼接起來(lái)，作為VD-BERT的文本部分，從而得到，其中是一個(gè)候選回答。

模型訓(xùn)練

在得到視覺(jué)輸入和文本輸入后，把這兩個(gè)再拼接起來(lái)作為VD-BERT整個(gè)的輸入，得到。注意到，我們使用了預(yù)訓(xùn)練的BERT去初始化VD-BERT，讓它得到一些文本的先驗(yàn)知識(shí)。

為了訓(xùn)練VD-BERT，本文提出兩個(gè)，也是BERT所提出的訓(xùn)練任務(wù)：MLM和NSP。MLM和BERT一致，隨機(jī)掩碼文本部分15%的詞，讓模型去預(yù)測(cè)它。

NSP有所不同，VD-BERT所做的是，讓模型的[CLS]去預(yù)測(cè)當(dāng)前的候選回答是不是真正的回答，即輸出一個(gè)0-1之間的概率。

對(duì)于判別式方法，只需要從候選回答集中采樣一些回答，然后再用NSP去預(yù)測(cè)是否正確即可；對(duì)于生成式方法，只需要一步一步預(yù)測(cè)即可，類似自回歸模型。

模型微調(diào)

除了一個(gè)回答是否是正確答案之外（0或1），VisDial v1.0還為每個(gè)候選答案給出了相關(guān)性得分，用于評(píng)判每個(gè)答案和正確答案之間的語(yǔ)義相關(guān)性，得分范圍為0-1之間。于是，VD-BERT就可以使用NSP在此基礎(chǔ)上進(jìn)一步微調(diào)，而在推理的時(shí)候，只需要選擇得分最大的那個(gè)答案即可。

實(shí)驗(yàn)

本文在視覺(jué)對(duì)話數(shù)據(jù)集VisDial v0.9和VisDial v1.0上實(shí)驗(yàn)，使用BERT-base作為VD-BERT骨干，使用Recall@K、MRR、Mean Rank和NDCG作為測(cè)評(píng)指標(biāo)，其他實(shí)驗(yàn)細(xì)節(jié)詳見(jiàn)原文。

下表是在VisDial v1.0上的結(jié)果，可以看到，VD-BERT在幾乎所有指標(biāo)上都超越了之前的模型。

特別注意到，微調(diào)的VD-BERT（*）只在NDCG上表現(xiàn)更好，而在其他指標(biāo)上表現(xiàn)更差，這是因?yàn)镹DCG衡量的回答的相關(guān)度，微調(diào)可以提高其表現(xiàn)，但是反而降低了在其他指標(biāo)上的效果。

下表是在VisDial v0.9上的結(jié)果，可以看到，無(wú)論是判別式方法還是生成式方法，VD-BERT都能取得一致更好的效果。

下面來(lái)看看視覺(jué)信息和文本信息的交互情況。從下圖可以看到，文本和圖片中的對(duì)象是對(duì)應(yīng)的。motorcycle關(guān)注了5和8（都是motorcycle），而he關(guān)注了4（人），helmet關(guān)注了4和8。

小結(jié)

本文提出VD-BERT，使用預(yù)訓(xùn)練的BERT作為統(tǒng)一的視覺(jué)對(duì)話模型，通過(guò)MLM和NSP的訓(xùn)練，VD-BERT能夠很好建模視覺(jué)信息和文本信息及其之間的相互聯(lián)系。

VD-BERT簡(jiǎn)單有效，不需要任何模型結(jié)構(gòu)設(shè)計(jì)，也不需要多余的損失函數(shù)優(yōu)化，更不需要額外的標(biāo)注數(shù)據(jù)，就能實(shí)現(xiàn)SOTA表現(xiàn)。

多模態(tài)是近些年發(fā)展很快的一個(gè)領(lǐng)域，因?yàn)楹腿祟惈@取信息的過(guò)程更接近，多模態(tài)能夠更大地推動(dòng)CV和NLP在現(xiàn)實(shí)的應(yīng)用和落地。更好、更快的多模態(tài)模型是未來(lái)的一個(gè)持續(xù)性研究方向。

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的VD-BERT：用BERT搭建统一的视觉对话模型的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Q弹草莓酸奶冻？
下一篇： CnGAN：面向跨网用户偏好推荐的生成对