论文浅尝 - ISWC2021 | 当知识图谱遇上零样本视觉问答
論文題目:Zero-shot Visual Question Answering using Knowledge Graph
本文作者:陳卓(浙江大學(xué))、陳矯彥(牛津大學(xué))、耿玉霞(浙江大學(xué))、Jeff Z. Pan(愛丁堡大學(xué))、苑宗港(華為)、陳華鈞(浙江大學(xué))
發(fā)表會(huì)議:ISWC 2021
論文鏈接:https://arxiv.org/pdf/2107.05348.pdf
代碼鏈接:https://github.com/China-UK-ZSL/ZS-F-VQA
歡迎轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)注明出處
引言
將外部知識(shí)引入視覺問(wèn)答(Visual Question Answering, VQA)已成為一個(gè)重要的實(shí)際需求?,F(xiàn)有的許多方法采用pipeline的模式,多模塊分工進(jìn)行跨模態(tài)知識(shí)處理和特征學(xué)習(xí),但這種模式下,中間件的性能瓶頸會(huì)導(dǎo)致不可逆轉(zhuǎn)的誤差傳播(Error Cascading)。此外,大多數(shù)已有工作都忽略了答案偏見問(wèn)題——因?yàn)殚L(zhǎng)尾效應(yīng)的存在,真實(shí)世界許多答案在模型訓(xùn)練過(guò)程中可能不曾出現(xiàn)過(guò)(Unseen Answer)。
在本文中,我們提出了一種適用于零樣本視覺問(wèn)答(ZS-VQA)的基于知識(shí)圖譜的掩碼機(jī)制,更好結(jié)合外部知識(shí)的同時(shí),一定程度緩解了誤差傳播對(duì)于模型性能的影響。并在原有F-VQA數(shù)據(jù)集基礎(chǔ)上,提供了基于Seen / Unseen答案類別為劃分依據(jù)的零樣本VQA數(shù)據(jù)集(ZS-F-VQA)。實(shí)驗(yàn)表明,我們的方法可以在該數(shù)據(jù)集下達(dá)到最佳性能,同時(shí)還可以顯著增強(qiáng)端到端模型在標(biāo)準(zhǔn)F-VQA任務(wù)上的性能效果。
一、前言
我們生活在一個(gè)多模態(tài)的世界中。視覺的捕捉與理解,知識(shí)的學(xué)習(xí)與感知,語(yǔ)言的交流與表達(dá),諸多方面的信息促進(jìn)著我們對(duì)于世界的認(rèn)知。作為多模態(tài)領(lǐng)域的一個(gè)典型場(chǎng)景,VQA旨在結(jié)合視覺的信息來(lái)回答所提出的問(wèn)題。從15年首次被提出至今,其涉及的方法從最開始的聯(lián)合編碼,到雙線性融合,注意力機(jī)制,組合模型,場(chǎng)景圖,再到引入外部知識(shí),進(jìn)行知識(shí)推理,以及使用圖網(wǎng)絡(luò),多模態(tài)預(yù)訓(xùn)練語(yǔ)言模型…近年來(lái)發(fā)展迅速。18年Qi Wu等首先提出引入外部知識(shí)的KB-VQA問(wèn)題(FVQA[1]),貢獻(xiàn)領(lǐng)域重要數(shù)據(jù)集(每個(gè)問(wèn)題的回答必須依賴圖片以外知識(shí))的同時(shí)提出了一種基于知識(shí)子圖生成并構(gòu)建查詢語(yǔ)句(SPARQL)的方法來(lái)解決該問(wèn)題。以其為代表的后來(lái)一系列pipeline模式模型,流程繁瑣部署困難的同時(shí)還面臨著誤差傳遞的風(fēng)險(xiǎn)。傳統(tǒng)端到端方法,盡管某種程度上避免了誤差傳遞,但大多將VQA作為分類任務(wù),這使得其無(wú)法對(duì)超出候選答案以外(out-of-vocabulary, OOV)的結(jié)果進(jìn)行預(yù)測(cè),也即我們提到的零樣本學(xué)習(xí)(Zero-shot Learning, ZSL)。
人天生就具有強(qiáng)大的領(lǐng)域遷移能力,且這種能力往往不需要很多的樣本,甚至僅需一些規(guī)則描述,根據(jù)過(guò)往的經(jīng)驗(yàn)與知識(shí)就可以迅速適應(yīng)一個(gè)新的領(lǐng)域,并對(duì)新概念進(jìn)行認(rèn)知。基于此假設(shè),我們?cè)O(shè)計(jì)零樣本下的外部知識(shí)VQA:測(cè)試集答案與訓(xùn)練集的答案沒有重疊。即,在原有F-VQA數(shù)據(jù)集基礎(chǔ)上,提供以Seen / Unseen答案類別為劃分依據(jù)的ZS-F-VQA數(shù)據(jù)集,并提出了一種適用于零樣本視覺問(wèn)答(ZS-VQA)的基于知識(shí)圖譜的掩碼機(jī)制。區(qū)別于傳統(tǒng)VQA基于分類器的模型設(shè)定,我們采取基于空間映射的方法,建立多個(gè)特征空間并進(jìn)行知識(shí)分解,同時(shí)提出了一種靈活的可作用于任何模型的k mask設(shè)定,緩解少樣本情況下對(duì)于Seen類數(shù)據(jù)的領(lǐng)域漂移。我們的方法提供了一種多模態(tài)數(shù)據(jù)和KG交互的新思路,實(shí)驗(yàn)證明在多個(gè)模型上可取得穩(wěn)定的提升,更好地結(jié)合外部知識(shí)同時(shí)緩解誤差傳播對(duì)于模型性能的影響。
二、數(shù)據(jù)集
由于長(zhǎng)尾效應(yīng)的存在,大多VQA數(shù)據(jù)存在答案不全/不均衡的特點(diǎn)(e.g. person、dog 等高頻答案的出現(xiàn)概率可能是towel、rail等低頻答案的數(shù)十乃至上百倍),這導(dǎo)致部分概念因?yàn)槌霈F(xiàn)次數(shù)少而無(wú)法被很好地學(xué)習(xí),甚至根本就沒有被學(xué)習(xí)(盡管真實(shí)場(chǎng)景下,其依然存在被問(wèn)到的可能)。
我們考慮極端的情況——零樣本。即將原始數(shù)據(jù)根據(jù)答案類型,劃分為訓(xùn)練/測(cè)試集的兩個(gè)分布。具體來(lái)說(shuō),我們首先將F-VQA數(shù)據(jù)集的訓(xùn)練/測(cè)試集進(jìn)行融合,然后統(tǒng)計(jì)出現(xiàn)概率TOP500的答案類型(answer class),按照Seen answer和Unseen answer隨機(jī)劃分為250 / 250的比例。此過(guò)程重復(fù)五次得到5個(gè)不同的子集以消除隨機(jī)劃分帶來(lái)的誤差影響。ZS-F-VQA劃分統(tǒng)計(jì)結(jié)果與F-VQA對(duì)比如下:
注意到,原始F-VQA是根據(jù)圖片進(jìn)行數(shù)據(jù)劃分的,因此在image上的重疊(overlap)是0,而ZS-F-VQA在answer上重疊為0。
三、方法
方法包含兩部分。
第一部分,我們提出三個(gè)特征空間以處理不同分布的信息:實(shí)體空間(Object Space)、語(yǔ)義空間(Semantic Space)、知識(shí)空間(Knowledge Space)的概念。其中:
實(shí)體空間主要處理圖像/文本中存在的重點(diǎn)實(shí)體與知識(shí)庫(kù)中存在實(shí)例的對(duì)齊;
語(yǔ)義空間關(guān)注視覺/語(yǔ)言的交互模態(tài)中蘊(yùn)含的語(yǔ)義信息,其目的是讓知識(shí)庫(kù)中對(duì)應(yīng)關(guān)系的表示在獨(dú)立空間中進(jìn)行特征逼近。
知識(shí)空間讓 (問(wèn)題,圖像)組成的pair與答案直接對(duì)齊,建模的是間接知識(shí),旨在挖掘多模態(tài)融合向量中存在的(潛層)知識(shí)。
第二部分是基于知識(shí)的答案掩碼。
掩碼技術(shù)技術(shù)廣泛應(yīng)用于預(yù)訓(xùn)練語(yǔ)言模型(PLM),其在訓(xùn)練階段遮掩輸入的片段,以自監(jiān)督的方式學(xué)習(xí)語(yǔ)法語(yǔ)義。與這種方式不同,我們?cè)谳敵鲭A段進(jìn)行答案遮掩:給定輸入圖像/文本信息得到融合向量后,基于第一部分獨(dú)立映射的特征空間和給定的超參數(shù)Ke / Kr,根據(jù)空間距離相似度在實(shí)體/語(yǔ)義空間中得到關(guān)于實(shí)體/關(guān)系的映射集,結(jié)合知識(shí)庫(kù)三元組信息匹配得到答案候選集。答案候選集作為掩碼的依據(jù),在知識(shí)空間搜索得到的模糊答案的基礎(chǔ)上進(jìn)行掩碼處理,最后進(jìn)行答案排序。
此處的掩碼類型的分為兩種:硬掩碼(hard mask)和軟掩碼(soft mask),主要作用于答案的判定分?jǐn)?shù)(score),區(qū)別在于遮掩分?jǐn)?shù)的多少。其作用場(chǎng)景分別為零樣本場(chǎng)景和普通場(chǎng)景。零樣本背景下領(lǐng)域偏移問(wèn)題嚴(yán)重,硬掩碼約束某種意義上對(duì)于答案命中效果的提升遠(yuǎn)大于丟失正確答案所帶來(lái)的誤差。而普通場(chǎng)景下過(guò)高的約束則容易導(dǎo)致較多的信息丟失,收益小于損失。
具體實(shí)驗(yàn)和討論見原文。
四、實(shí)驗(yàn)
標(biāo)準(zhǔn)F-VQA上的實(shí)驗(yàn)效果:
可以看到,取不同的超參k值,相比于其他baseline方法,最多可以取得( 6 ~ 9% )的穩(wěn)定提升。而在零樣本設(shè)定中,ZS-F-VQA數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果如圖所示:
模型所取得的提升是十分顯著( 30 ~ 40% )的。
同時(shí),ZS-F-VQA數(shù)據(jù)下hard mask 取得最佳效果,F-VQA數(shù)據(jù)下soft mask在不同的掩碼分值取值(soft mask)下取得最佳效果,證明hard mask和soft mask的設(shè)定是有必要的。
最后,我們也對(duì)模型在兩個(gè)數(shù)據(jù)集上的結(jié)果進(jìn)行了可解釋性分析。
五、總結(jié)
現(xiàn)有的模型默認(rèn)訓(xùn)練集與測(cè)試集具有獨(dú)立同分布的特質(zhì),但現(xiàn)實(shí)往往不盡如人意,也就是說(shuō)同分布的假設(shè)大概率要打破。正如三位圖靈獎(jiǎng)大佬最近發(fā)表的文章Deep Learning for AI [2]中所強(qiáng)調(diào)的核心概念——高層次認(rèn)知。將現(xiàn)在已經(jīng)學(xué)習(xí)的知識(shí)或技能重新組合,重構(gòu)成為新的知識(shí)體系,隨之也重新構(gòu)建出了一個(gè)新的假想世界(如在月球上開車),這種能力是人類天生就被賦予了的,在因果論中,被稱作“反事實(shí)”能力?,F(xiàn)有的統(tǒng)計(jì)學(xué)習(xí)系統(tǒng)僅僅停留在因果關(guān)系之梯的第一層,即觀察,觀察特征與標(biāo)簽之間的關(guān)聯(lián),而無(wú)法做到更高層次的事情。
這也是我們研究的出發(fā)點(diǎn):零樣本領(lǐng)域如何合理利用已有知識(shí)?我們普遍認(rèn)為見過(guò)的就是事實(shí),而未見過(guò)的就是事實(shí)以外的錯(cuò)誤(反事實(shí)),這顯然過(guò)于絕對(duì)。零樣本某種意義上,就可看成是反事實(shí)的一種特例。
在未來(lái),這其中顯然還有更多可以挖掘的可能。
歡迎大家關(guān)注我們近期的在零樣本學(xué)習(xí)領(lǐng)域的其他工作 [3-5]!
[1] Wang, P., Wu, Q., Shen, C., et al.: FVQA: fact-based visual question answering. TPAMI (2018)
[2] https://cacm.acm.org/magazines/2021/7/253464-deep-learning-for-ai/fulltext
[3] Geng Y, Chen J, Chen Z, et al. OntoZSL: Ontology-enhanced Zero-shot Learning. WWW 2021
[4] Chen J, Geng Y, Chen Z, et al. Knowledge-aware Zero-Shot Learning: Survey and Perspective[J]. IJCAI. 2021
[5] Geng Y, Chen J, Chen Z, et al. K-ZSL: Resources for Knowledge-driven Zero-shot Learning[J]. arXiv, 2021.
?
OpenKG
OpenKG(中文開放知識(shí)圖譜)旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開源開放。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 - ISWC2021 | 当知识图谱遇上零样本视觉问答的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 阿里P8架构师谈:Docker简介、组成
- 下一篇: 论文浅尝 | 面向多语言语义解析的神经网