當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 - ISWC2021 | 当知识图谱遇上零样本视觉问答

發(fā)布時(shí)間：2024/7/5 编程问答 57 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 - ISWC2021 | 当知识图谱遇上零样本视觉问答小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文題目：Zero-shot Visual Question Answering using Knowledge Graph

本文作者：陳卓(浙江大學(xué))、陳矯彥(牛津大學(xué))、耿玉霞(浙江大學(xué))、Jeff Z. Pan(愛丁堡大學(xué))、苑宗港(華為)、陳華鈞(浙江大學(xué))

發(fā)表會(huì)議：ISWC 2021

論文鏈接：https://arxiv.org/pdf/2107.05348.pdf

代碼鏈接：https://github.com/China-UK-ZSL/ZS-F-VQA

歡迎轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)注明出處

引言

將外部知識(shí)引入視覺問(wèn)答（Visual Question Answering, VQA）已成為一個(gè)重要的實(shí)際需求?，F(xiàn)有的許多方法采用pipeline的模式，多模塊分工進(jìn)行跨模態(tài)知識(shí)處理和特征學(xué)習(xí)，但這種模式下，中間件的性能瓶頸會(huì)導(dǎo)致不可逆轉(zhuǎn)的誤差傳播（Error Cascading）。此外，大多數(shù)已有工作都忽略了答案偏見問(wèn)題——因?yàn)殚L(zhǎng)尾效應(yīng)的存在，真實(shí)世界許多答案在模型訓(xùn)練過(guò)程中可能不曾出現(xiàn)過(guò)（Unseen Answer）。

在本文中，我們提出了一種適用于零樣本視覺問(wèn)答（ZS-VQA）的基于知識(shí)圖譜的掩碼機(jī)制，更好結(jié)合外部知識(shí)的同時(shí)，一定程度緩解了誤差傳播對(duì)于模型性能的影響。并在原有F-VQA數(shù)據(jù)集基礎(chǔ)上，提供了基于Seen / Unseen答案類別為劃分依據(jù)的零樣本VQA數(shù)據(jù)集（ZS-F-VQA）。實(shí)驗(yàn)表明，我們的方法可以在該數(shù)據(jù)集下達(dá)到最佳性能，同時(shí)還可以顯著增強(qiáng)端到端模型在標(biāo)準(zhǔn)F-VQA任務(wù)上的性能效果。

一、前言

我們生活在一個(gè)多模態(tài)的世界中。視覺的捕捉與理解，知識(shí)的學(xué)習(xí)與感知，語(yǔ)言的交流與表達(dá)，諸多方面的信息促進(jìn)著我們對(duì)于世界的認(rèn)知。作為多模態(tài)領(lǐng)域的一個(gè)典型場(chǎng)景，VQA旨在結(jié)合視覺的信息來(lái)回答所提出的問(wèn)題。從15年首次被提出至今，其涉及的方法從最開始的聯(lián)合編碼，到雙線性融合，注意力機(jī)制，組合模型，場(chǎng)景圖，再到引入外部知識(shí)，進(jìn)行知識(shí)推理，以及使用圖網(wǎng)絡(luò)，多模態(tài)預(yù)訓(xùn)練語(yǔ)言模型…近年來(lái)發(fā)展迅速。18年Qi Wu等首先提出引入外部知識(shí)的KB-VQA問(wèn)題（FVQA[1]），貢獻(xiàn)領(lǐng)域重要數(shù)據(jù)集（每個(gè)問(wèn)題的回答必須依賴圖片以外知識(shí)）的同時(shí)提出了一種基于知識(shí)子圖生成并構(gòu)建查詢語(yǔ)句（SPARQL）的方法來(lái)解決該問(wèn)題。以其為代表的后來(lái)一系列pipeline模式模型，流程繁瑣部署困難的同時(shí)還面臨著誤差傳遞的風(fēng)險(xiǎn)。傳統(tǒng)端到端方法，盡管某種程度上避免了誤差傳遞，但大多將VQA作為分類任務(wù)，這使得其無(wú)法對(duì)超出候選答案以外（out-of-vocabulary, OOV）的結(jié)果進(jìn)行預(yù)測(cè)，也即我們提到的零樣本學(xué)習(xí)（Zero-shot Learning, ZSL）。

人天生就具有強(qiáng)大的領(lǐng)域遷移能力，且這種能力往往不需要很多的樣本，甚至僅需一些規(guī)則描述，根據(jù)過(guò)往的經(jīng)驗(yàn)與知識(shí)就可以迅速適應(yīng)一個(gè)新的領(lǐng)域，并對(duì)新概念進(jìn)行認(rèn)知。基于此假設(shè)，我們?cè)O(shè)計(jì)零樣本下的外部知識(shí)VQA：測(cè)試集答案與訓(xùn)練集的答案沒有重疊。即，在原有F-VQA數(shù)據(jù)集基礎(chǔ)上，提供以Seen / Unseen答案類別為劃分依據(jù)的ZS-F-VQA數(shù)據(jù)集，并提出了一種適用于零樣本視覺問(wèn)答（ZS-VQA）的基于知識(shí)圖譜的掩碼機(jī)制。區(qū)別于傳統(tǒng)VQA基于分類器的模型設(shè)定，我們采取基于空間映射的方法，建立多個(gè)特征空間并進(jìn)行知識(shí)分解，同時(shí)提出了一種靈活的可作用于任何模型的k mask設(shè)定，緩解少樣本情況下對(duì)于Seen類數(shù)據(jù)的領(lǐng)域漂移。我們的方法提供了一種多模態(tài)數(shù)據(jù)和KG交互的新思路，實(shí)驗(yàn)證明在多個(gè)模型上可取得穩(wěn)定的提升，更好地結(jié)合外部知識(shí)同時(shí)緩解誤差傳播對(duì)于模型性能的影響。

二、數(shù)據(jù)集

由于長(zhǎng)尾效應(yīng)的存在，大多VQA數(shù)據(jù)存在答案不全/不均衡的特點(diǎn)（e.g. person、dog 等高頻答案的出現(xiàn)概率可能是towel、rail等低頻答案的數(shù)十乃至上百倍），這導(dǎo)致部分概念因?yàn)槌霈F(xiàn)次數(shù)少而無(wú)法被很好地學(xué)習(xí)，甚至根本就沒有被學(xué)習(xí)（盡管真實(shí)場(chǎng)景下，其依然存在被問(wèn)到的可能）。

我們考慮極端的情況——零樣本。即將原始數(shù)據(jù)根據(jù)答案類型，劃分為訓(xùn)練/測(cè)試集的兩個(gè)分布。具體來(lái)說(shuō)，我們首先將F-VQA數(shù)據(jù)集的訓(xùn)練/測(cè)試集進(jìn)行融合，然后統(tǒng)計(jì)出現(xiàn)概率TOP500的答案類型（answer class），按照Seen answer和Unseen answer隨機(jī)劃分為250 / 250的比例。此過(guò)程重復(fù)五次得到5個(gè)不同的子集以消除隨機(jī)劃分帶來(lái)的誤差影響。ZS-F-VQA劃分統(tǒng)計(jì)結(jié)果與F-VQA對(duì)比如下：

注意到，原始F-VQA是根據(jù)圖片進(jìn)行數(shù)據(jù)劃分的，因此在image上的重疊（overlap）是0，而ZS-F-VQA在answer上重疊為0。

三、方法

方法包含兩部分。

第一部分，我們提出三個(gè)特征空間以處理不同分布的信息：實(shí)體空間（Object Space）、語(yǔ)義空間（Semantic Space）、知識(shí)空間（Knowledge Space）的概念。其中：

實(shí)體空間主要處理圖像/文本中存在的重點(diǎn)實(shí)體與知識(shí)庫(kù)中存在實(shí)例的對(duì)齊；
語(yǔ)義空間關(guān)注視覺/語(yǔ)言的交互模態(tài)中蘊(yùn)含的語(yǔ)義信息，其目的是讓知識(shí)庫(kù)中對(duì)應(yīng)關(guān)系的表示在獨(dú)立空間中進(jìn)行特征逼近。
知識(shí)空間讓 (問(wèn)題，圖像)組成的pair與答案直接對(duì)齊，建模的是間接知識(shí)，旨在挖掘多模態(tài)融合向量中存在的（潛層）知識(shí)。

第二部分是基于知識(shí)的答案掩碼。

掩碼技術(shù)技術(shù)廣泛應(yīng)用于預(yù)訓(xùn)練語(yǔ)言模型（PLM），其在訓(xùn)練階段遮掩輸入的片段，以自監(jiān)督的方式學(xué)習(xí)語(yǔ)法語(yǔ)義。與這種方式不同，我們?cè)谳敵鲭A段進(jìn)行答案遮掩：給定輸入圖像/文本信息得到融合向量后，基于第一部分獨(dú)立映射的特征空間和給定的超參數(shù)Ke / Kr，根據(jù)空間距離相似度在實(shí)體/語(yǔ)義空間中得到關(guān)于實(shí)體/關(guān)系的映射集，結(jié)合知識(shí)庫(kù)三元組信息匹配得到答案候選集。答案候選集作為掩碼的依據(jù)，在知識(shí)空間搜索得到的模糊答案的基礎(chǔ)上進(jìn)行掩碼處理，最后進(jìn)行答案排序。

此處的掩碼類型的分為兩種：硬掩碼（hard mask）和軟掩碼（soft mask），主要作用于答案的判定分?jǐn)?shù)（score），區(qū)別在于遮掩分?jǐn)?shù)的多少。其作用場(chǎng)景分別為零樣本場(chǎng)景和普通場(chǎng)景。零樣本背景下領(lǐng)域偏移問(wèn)題嚴(yán)重，硬掩碼約束某種意義上對(duì)于答案命中效果的提升遠(yuǎn)大于丟失正確答案所帶來(lái)的誤差。而普通場(chǎng)景下過(guò)高的約束則容易導(dǎo)致較多的信息丟失，收益小于損失。

具體實(shí)驗(yàn)和討論見原文。

四、實(shí)驗(yàn)

標(biāo)準(zhǔn)F-VQA上的實(shí)驗(yàn)效果：

可以看到，取不同的超參k值，相比于其他baseline方法，最多可以取得( 6 ～ 9% )的穩(wěn)定提升。而在零樣本設(shè)定中，ZS-F-VQA數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果如圖所示：

模型所取得的提升是十分顯著( 30 ～ 40% )的。

同時(shí)，ZS-F-VQA數(shù)據(jù)下hard mask 取得最佳效果，F-VQA數(shù)據(jù)下soft mask在不同的掩碼分值取值（soft mask）下取得最佳效果，證明hard mask和soft mask的設(shè)定是有必要的。

最后，我們也對(duì)模型在兩個(gè)數(shù)據(jù)集上的結(jié)果進(jìn)行了可解釋性分析。

五、總結(jié)

現(xiàn)有的模型默認(rèn)訓(xùn)練集與測(cè)試集具有獨(dú)立同分布的特質(zhì)，但現(xiàn)實(shí)往往不盡如人意，也就是說(shuō)同分布的假設(shè)大概率要打破。正如三位圖靈獎(jiǎng)大佬最近發(fā)表的文章Deep Learning for AI [2]中所強(qiáng)調(diào)的核心概念——高層次認(rèn)知。將現(xiàn)在已經(jīng)學(xué)習(xí)的知識(shí)或技能重新組合，重構(gòu)成為新的知識(shí)體系，隨之也重新構(gòu)建出了一個(gè)新的假想世界（如在月球上開車），這種能力是人類天生就被賦予了的，在因果論中，被稱作“反事實(shí)”能力?，F(xiàn)有的統(tǒng)計(jì)學(xué)習(xí)系統(tǒng)僅僅停留在因果關(guān)系之梯的第一層，即觀察，觀察特征與標(biāo)簽之間的關(guān)聯(lián)，而無(wú)法做到更高層次的事情。

這也是我們研究的出發(fā)點(diǎn)：零樣本領(lǐng)域如何合理利用已有知識(shí)？我們普遍認(rèn)為見過(guò)的就是事實(shí)，而未見過(guò)的就是事實(shí)以外的錯(cuò)誤（反事實(shí)），這顯然過(guò)于絕對(duì)。零樣本某種意義上，就可看成是反事實(shí)的一種特例。

在未來(lái)，這其中顯然還有更多可以挖掘的可能。

歡迎大家關(guān)注我們近期的在零樣本學(xué)習(xí)領(lǐng)域的其他工作 [3-5]！

[1] Wang, P., Wu, Q., Shen, C., et al.: FVQA: fact-based visual question answering. TPAMI (2018)

[2] https://cacm.acm.org/magazines/2021/7/253464-deep-learning-for-ai/fulltext

[3] Geng Y, Chen J, Chen Z, et al. OntoZSL: Ontology-enhanced Zero-shot Learning. WWW 2021

[4] Chen J, Geng Y, Chen Z, et al. Knowledge-aware Zero-Shot Learning: Survey and Perspective[J]. IJCAI. 2021

[5] Geng Y, Chen J, Chen Z, et al. K-ZSL: Resources for Knowledge-driven Zero-shot Learning[J]. arXiv, 2021.

OpenKG

OpenKG（中文開放知識(shí)圖譜）旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開放、互聯(lián)及眾包，并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開源開放。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 網(wǎng)站。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 - ISWC2021 | 当知识图谱遇上零样本视觉问答的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：阿里P8架构师谈：Docker简介、组成
下一篇：论文浅尝 | 面向多语言语义解析的神经网