當(dāng)前位置：首頁(yè) > 人工智能 > ChatGpt >内容正文

ChatGpt

论文浅尝 - IJCAI2020 | Mucko：基于事实的多层跨模态知识推理视觉问答

發(fā)布時(shí)間：2024/7/5 ChatGpt 36 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 - IJCAI2020 | Mucko：基于事实的多层跨模态知识推理视觉问答小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文筆記整理：陳卓，浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系，博士研究生。

論文鏈接：https://arxiv.org/pdf/2006.09073

代碼：https://github.com/astro-zihao/mucko

發(fā)表會(huì)議：IJCAI 2020

任務(wù)定義及背景

VQA（視覺(jué)問(wèn)答）顧名思義，也就是結(jié)合視覺(jué)的信息來(lái)回答問(wèn)題。其于15年被提出，涉及的方法從最開(kāi)始的聯(lián)合編碼，到雙線性融合，注意力機(jī)制，組合模型，場(chǎng)景圖，再到引入外部知識(shí)，進(jìn)行知識(shí)推理，以及使用圖網(wǎng)絡(luò)，近年來(lái)取得了長(zhǎng)足發(fā)展。其中18年Qi Wu等人提出的FVQA[2]，提出引入外部知識(shí)的KB-VQA問(wèn)題，并貢獻(xiàn)了這方面的重要數(shù)據(jù)集，該數(shù)據(jù)集特點(diǎn)是要回答問(wèn)題必須依賴(lài)圖片以外知識(shí)。同時(shí)，提出了一種對(duì)應(yīng)解決該問(wèn)題的方法與思路。

Out of the box[3]這篇文章，簡(jiǎn)稱(chēng)OB，則基于FVQA數(shù)據(jù)集，將視覺(jué)與外部知識(shí)信息融合后用圖卷積網(wǎng)絡(luò)來(lái)解KB-VQA問(wèn)題。效果比FVQA的Sota要好。把它從58.7%提升到了69.3%。以上是本文工作的背景。

??????????????????????????????????????????

動(dòng)機(jī)

作者對(duì)比了前人的工作，一個(gè)方向是將問(wèn)題轉(zhuǎn)化成關(guān)鍵詞，然后在候選事實(shí)中根據(jù)關(guān)鍵詞匹配檢索出對(duì)應(yīng)的支撐事實(shí)的pineline方式，比如前文所提的FVQA，但是如果視覺(jué)概念沒(méi)有被問(wèn)題完全提及(比如同義詞和同形異義詞)或者事實(shí)圖中未捕獲提及的信息(比如它問(wèn)紅色的柱子是什么，卻沒(méi)有提到消防栓)，那這類(lèi)方法就會(huì)因?yàn)槠ヅ涠a(chǎn)生誤差。

另一個(gè)方向?qū)⒁曈X(jué)信息引入到知識(shí)圖中，通過(guò)GCN推導(dǎo)出答案，就比如前文提到的out of the box模型。雖然解決了上面的問(wèn)題但是每個(gè)節(jié)點(diǎn)都引入了相同且全部的視覺(jué)信息，而只有一部分的視覺(jué)信息和當(dāng)前節(jié)點(diǎn)是相關(guān)的，這樣會(huì)引入噪聲。并且每個(gè)節(jié)點(diǎn)都是固定形式的的視覺(jué)-問(wèn)題-實(shí)體的嵌入表示，這使得模型無(wú)法靈活地從不同模態(tài)中捕獲線索

而本文則較好地解決了上述問(wèn)題。??????

??????????????????????????????????

模型

以上是模型的整體overview，大體流程是先得到三個(gè)不同模態(tài)的圖，然后進(jìn)行模態(tài)內(nèi)知識(shí)選擇，跨模態(tài)知識(shí)推理，最后將中間模態(tài)圖的節(jié)點(diǎn)進(jìn)行二分類(lèi)結(jié)果判別。

Part 1：Multi-Modal Graph Construction

文章的出發(fā)點(diǎn)是將圖像表示成一個(gè)多模態(tài)的異構(gòu)圖，其中包含來(lái)自不同模態(tài)三個(gè)層次的信息（分別是視覺(jué)圖、語(yǔ)義圖和事實(shí)圖），來(lái)互相補(bǔ)充和增強(qiáng)VQA任務(wù)的信息。

具體來(lái)說(shuō)，視覺(jué)圖包含了圖像中的物體及其位置關(guān)系的表示。構(gòu)造原理是通過(guò)訓(xùn)練好的目標(biāo)檢測(cè)模型比如Faster-RCNN得到圖像中物體的集合，并構(gòu)造全連接圖。其中每個(gè)實(shí)體由一個(gè)2048維的視覺(jué)特征向量和4維空間特征向量，以及對(duì)應(yīng)的label進(jìn)行表示，而每一條邊則用與兩端節(jié)點(diǎn)位置相關(guān)的五維特征向量表示。

語(yǔ)義圖包含了用于銜接視覺(jué)和知識(shí)的高層語(yǔ)義信息，構(gòu)造原理是先使用Densecap預(yù)訓(xùn)練模型生成圖像的細(xì)粒度caption(這既包括單個(gè)object的屬性，也包括不同object的關(guān)系)，然后使用Spice算法根據(jù)排名靠前的caption構(gòu)造一個(gè)語(yǔ)義聯(lián)系圖。節(jié)點(diǎn)代表object的名字或?qū)傩?#xff0c;邊代表關(guān)系。最后用GloVe embeddings來(lái)表示節(jié)點(diǎn)和關(guān)系。

事實(shí)圖則包含圖像對(duì)應(yīng)的外部知識(shí)，它的構(gòu)造思想?yún)⒖剂薿ut of the box 模型。使用相似性評(píng)分技術(shù)，根據(jù)圖像和問(wèn)題從事實(shí)空間獲得top100的相關(guān)事實(shí)三元組(這里的事實(shí)空間是Conceptnet)，然后根據(jù)問(wèn)題預(yù)測(cè)出的top3 Relation 類(lèi)型篩選一遍。保留剩下Relations 中符合要求的三元組Facts，最后自然構(gòu)成圖結(jié)構(gòu)。其中節(jié)點(diǎn)和邊的信息同樣用GloVe詞向量進(jìn)行初始化的。這樣以來(lái)得到了一個(gè)多模態(tài)圖。

Part 2：Intra-Modal Knowledge Selection

在跨模態(tài)知識(shí)匯聚之前，首先進(jìn)行的是每個(gè)模態(tài)內(nèi)的知識(shí)選擇：在問(wèn)題的引導(dǎo)下確定每個(gè)節(jié)點(diǎn)和邊在內(nèi)部圖卷積過(guò)程中的分?jǐn)?shù)權(quán)重占比，然后進(jìn)行常規(guī)的update操作。也就是說(shuō)在跨模態(tài)之前，先獨(dú)立選擇單個(gè)模態(tài)內(nèi)有價(jià)值的證據(jù)，讓和問(wèn)題相關(guān)性強(qiáng)的節(jié)點(diǎn)及邊，在圖內(nèi)部卷積過(guò)程中占更大的權(quán)重。這三個(gè)模態(tài)內(nèi)部的卷積操作都是相同的，只是節(jié)點(diǎn)和邊的表示不同。

簡(jiǎn)單來(lái)說(shuō)，首先通過(guò)注意力機(jī)制評(píng)估與該問(wèn)題相對(duì)應(yīng)的每個(gè)節(jié)點(diǎn)的相關(guān)性，得到每個(gè)節(jié)點(diǎn)i的attention weight αi。其中w是可學(xué)習(xí)的參數(shù)，vi是節(jié)點(diǎn)表示，q是經(jīng)過(guò)LSTM的問(wèn)題編碼。

對(duì)于每一條邊而言也是同理。得到邊的attention weight βji。

在得到節(jié)點(diǎn)與邊的attention weights后，最后使用消息傳遞網(wǎng)絡(luò)更新每一層的內(nèi)部的節(jié)點(diǎn)得到新的節(jié)點(diǎn)表示。

Part 3：Cross-Modal Knowledge Reasoning + Learing

跨模態(tài)的知識(shí)推理是基于part2模態(tài)內(nèi)的知識(shí)選擇的結(jié)果。考慮到信息的模糊性，不同圖很難顯式地對(duì)齊，所以作者采用一種隱式的基于注意力機(jī)制的異構(gòu)圖卷積網(wǎng)絡(luò)方法來(lái)關(guān)聯(lián)不同模態(tài)的信息，從不同層的圖中自適應(yīng)地收集互補(bǔ)線索并進(jìn)行匯聚。包括視覺(jué)到事實(shí)的卷積和語(yǔ)義到事實(shí)的卷積。

比如視覺(jué)到事實(shí)的卷積場(chǎng)景中，對(duì)于事實(shí)圖中的每個(gè)節(jié)點(diǎn)vi，計(jì)算視覺(jué)圖中每個(gè)節(jié)點(diǎn)vj和它在問(wèn)題引導(dǎo)下的相似度注意力分?jǐn)?shù)，越互補(bǔ)的節(jié)點(diǎn)它的相似度分?jǐn)?shù)就越高，然后根據(jù)這個(gè)分?jǐn)?shù)對(duì)視覺(jué)圖加權(quán)求和，得到事實(shí)圖中每個(gè)節(jié)點(diǎn)來(lái)自視覺(jué)圖層的事實(shí)互補(bǔ)信息。

而來(lái)自語(yǔ)義的事實(shí)互補(bǔ)信息也是一樣的操作。然后使用門(mén)控機(jī)制將圖像的視覺(jué)和語(yǔ)義的互補(bǔ)信息以及fact本身節(jié)點(diǎn)的實(shí)體特征，進(jìn)行融合得到事實(shí)圖的實(shí)體表示。

最后fact graph本身使用一個(gè)Attention base 的GCN來(lái)聚合剛才得到的節(jié)點(diǎn)信息，以上就是跨模態(tài)的圖卷積過(guò)程。

分別迭代地執(zhí)行Part2模態(tài)內(nèi)的知識(shí)選擇和Part3跨模態(tài)的知識(shí)推理，執(zhí)行多個(gè)step可以獲得最終的fact實(shí)體表示，并將其傳到一個(gè)二元分類(lèi)器，輸出概率最高的實(shí)體當(dāng)做預(yù)測(cè)的答案。

實(shí)驗(yàn)分析

1.Comparison with Sota

模型在三個(gè)數(shù)據(jù)集上驗(yàn)證了實(shí)驗(yàn)結(jié)果。其中FVQA里面fact的是將圖片中概念在知識(shí)庫(kù)比如Conceptnet和Dbpedia中查詢(xún)得到三元組所得到來(lái)的。其本身問(wèn)題的構(gòu)造就是依照f(shuō)act所刻意得到的，每一個(gè)問(wèn)題都會(huì)和一個(gè)三元組相關(guān)。可以看到，該模型在FVQA上表現(xiàn)很好，而傳統(tǒng)的引入外部知識(shí)的VQA模型也均有不錯(cuò)的表現(xiàn)，其中本文模型外最好的就是剛才提到的OB模型。

Top1結(jié)果和Top3結(jié)果與本文模型相差為3.7%和5.7%。作者給出的解釋是OB沒(méi)有在圖像內(nèi)部進(jìn)行特征選擇，只是單純地把全局信息進(jìn)行了拼接操作，所以不如本文。

而另外一個(gè)數(shù)據(jù)集Visual7W KB也和FVQA類(lèi)似，問(wèn)題是直接根據(jù)Conceptnet生成的。不同點(diǎn)在于他不提供fact。可以看到結(jié)果也明顯好于Sota。

第三個(gè)數(shù)據(jù)集OK-VQA比較特殊，這個(gè)數(shù)據(jù)集的QA構(gòu)造是亞馬遜上人工設(shè)定問(wèn)題人工進(jìn)行回答，沒(méi)有知識(shí)庫(kù)作為參考，且問(wèn)題要求必須使用圖片以外的數(shù)據(jù)，知識(shí)跨度大，可以說(shuō)是目前而言最難的VQA數(shù)據(jù)集，sota只有30%不到。該模型在OK-VQA上表現(xiàn)的不太好，不過(guò)還是比Sota要高大概0.7%。原因猜測(cè)是光憑借單一的外部知識(shí)庫(kù)可能不足以對(duì)ok-vqa達(dá)到較大提升，所以ok-vqa問(wèn)題在未來(lái)實(shí)際上還有很大的提升空間。

2.Ablation Study

本文作者基于FVQA做了消融實(shí)驗(yàn)，分別去掉不同模態(tài)的圖以及對(duì)應(yīng)的注意力加權(quán)卷積機(jī)制，還去掉了多模態(tài)圖中邊的信息來(lái)進(jìn)行對(duì)比，最后證明以上的工作都是有意義且必要的。

3.Interpretability

該模型另外一個(gè)優(yōu)點(diǎn)是結(jié)果具有比較好的解釋性。上圖是FVQA數(shù)據(jù)下測(cè)試的結(jié)果。把fact graph中最重要fact所對(duì)應(yīng)的top2視覺(jué)和語(yǔ)義對(duì)象節(jié)點(diǎn)，用虛線連接，虛線上的值表示了跨模態(tài)卷積中不同層哪些節(jié)點(diǎn)對(duì)結(jié)果影響重要性更大，結(jié)果比較直觀。

熱力條根據(jù)最后特征融合時(shí)的gate值得到，密度越大則代表對(duì)應(yīng)位置通道的重要性越高。可以發(fā)現(xiàn)，在大多數(shù)的情況下事實(shí)信息會(huì)更重要，也就是密度最大。因?yàn)镕VQA中97.3%的問(wèn)題都是需要額外知識(shí)才能回答的。而密度第二大的區(qū)域往往會(huì)由問(wèn)題的類(lèi)型決定是視覺(jué)更重要還是問(wèn)題更重要。比如第二個(gè)圖中問(wèn)題里面的hold by這個(gè)詞無(wú)法在圖片中具體體現(xiàn)，所以所以語(yǔ)義信息的占比會(huì)更大一些。而第一個(gè)圖的話則視覺(jué)信息占比更大。

第三張圖片就是與OB模型的對(duì)比，對(duì)比了部分他們答對(duì)并且OB打錯(cuò)的pair。作者對(duì)于該差異的解釋是前文提到的OB模型中每個(gè)節(jié)點(diǎn)都引入了相同且全部的視覺(jué)信息，使得部分噪聲被引入。最后一張圖是說(shuō)當(dāng)有多個(gè)合理答案的時(shí)候模型也會(huì)出錯(cuò)。

[1] Zhu Z, Yu J, Wang Y, et al. Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based VisualQuestion Answering[J]. arXiv.

[2] Wang P, Wu Q, Shen C, et al. Fvqa: Fact-based visual question answering. TPAMI, 2018

[3] Narasimhan M, Lazebnik S, Schwing A. Out of the box: Reasoning with graph convolution nets for factual visual question answering. NIPS. 2018

OpenKG

開(kāi)放知識(shí)圖譜（簡(jiǎn)稱(chēng) OpenKG）旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián)，促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 - IJCAI2020 | Mucko：基于事实的多层跨模态知识推理视觉问答的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 - ICLR2021 | BE
下一篇：论文浅尝 - IJCAI | Knowl