當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Multi-Level Knowledge Injecting for Visual Commonsense Reasoning

發(fā)布時間：2024/1/18 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了 Multi-Level Knowledge Injecting for Visual Commonsense Reasoning 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

摘要——當(dāng)瀏覽一幅圖像時，人類可以推斷出隱藏在圖像中的東西，而不是視覺上明顯的東西，例如物體的功能、人的意圖和精神狀態(tài)。然而，這種視覺推理范式對計算機來說非常困難，需要了解世界是如何工作的。為了解決這個問題，我們提出了基于常識知識的推理模型(CKRM)來獲取外部知識，以支持視覺常識推理(VCR)任務(wù)，其中計算機被期望回答具有挑戰(zhàn)性的視覺問題。我們的核心思想是:(1)通過多層次知識轉(zhuǎn)移網(wǎng)絡(luò)注入外部常識知識，實現(xiàn)細胞級、層級和注意力級的聯(lián)合信息轉(zhuǎn)移，從而彌合識別級和認知級圖像理解之間的鴻溝。它可以有效地從不同的角度捕捉知識，提前感知人類的常識。(2)為了進一步促進認知水平上的圖像理解，我們提出了一種基于知識的推理方法，該方法可以將轉(zhuǎn)移的知識與視覺內(nèi)容相關(guān)聯(lián)，并組成推理線索來獲得最終答案。在具有挑戰(zhàn)性的視覺常識推理數(shù)據(jù)集VCR上進行的實驗驗證了我們提出的CKRM方法的有效性，該方法可以顯著提高推理性能并達到最先進的精度。

INTRODUCTION

通過對場景的一瞥，人們不僅可以知道場景中明顯的東西(例如物體、物體的位置、物體的狀態(tài)和動作)，而且可以推斷出許多不明顯的事情(例如物體的功能、人的心理狀態(tài)和即將發(fā)生的事情)。目前，計算機算法在圖像分類[1]、[2]、目標(biāo)檢測[3]-[5]、動作識別[6]、[7]、場景解析[8]、[9]等識別任務(wù)上取得了很大進展。然而，在處理涉及推理的任務(wù)，特別是常識性推理時，計算機還有很長的路要走。

推理作為人類的一種重要能力，在人工智能領(lǐng)域受到了廣泛關(guān)注。在文本理解領(lǐng)域，一個具有代表性的任務(wù)是自然語言推理[10](也稱為文本蘊涵識別)，它需要計算機來判斷假設(shè)是否可以從前提中推斷出來。然而，這種語言蘊涵主要側(cè)重于對句子對之間的關(guān)系進行建模，而不是認知層面的推理。許多視覺和語言任務(wù)被認為是令人信服的“人工智能完備”任務(wù)[11]，這些任務(wù)除了需要單一通道外，還需要多通道推理。最具代表性的任務(wù)之一是視覺問答(VQA)[12]、[13]，它旨在自動推斷視覺問題的文本答案。由于深度神經(jīng)網(wǎng)絡(luò)在計算機視覺和自然語言處理方面具有很強的學(xué)習(xí)能力，這方面的研究已經(jīng)取得了很大的進展。計算機在回答與圖像內(nèi)容直接相關(guān)的問題方面取得了長足的進步，如物體的類別、編號和顏色[14]-[16]。然而，當(dāng)面對明確的信息不夠、需要更多常識的問題時，性能仍然遠遠不能令人滿意[17]。因此，如何有效地獲取和結(jié)合人類常識是更好地處理VQA任務(wù)的有效途徑。

作為推理的一個分支，常識推理在從自然語言處理到計算機視覺的許多人工智能領(lǐng)域都具有非常重要的意義。本文主要研究視覺常識推理(VCR)，它模擬了人類對日常遇到的常見情況進行推理的能力。與傳統(tǒng)的VQA任務(wù)不同，VCR對認知水平的視覺理解提出了更高的要求。例如，我們不是把注意力集中在一個低層次的動作上：“一個男孩單膝跪向一個女孩”，而是希望聯(lián)系常識，推斷出：“男孩可能想向女孩求婚。”

圖1顯示了可視化常識推理的一個示例。對于給定的圖像，會問一個問題：“為什么每個人都低著頭坐著？”當(dāng)人們面對這個問題時，我們可以首先識別物體(食物、盤子、餐桌等)，然后進一步推斷這種情況很可能發(fā)生在吃東西的時候。此外，餐桌上還有未吃的食物，每個人都閉上了眼睛。他們中的大多數(shù)人還把手放在前面，低著頭。然后，我們講述了一個常識，即“信教的人通常在吃飯前手牽手，低下頭，閉上眼睛，祈禱感謝”。根據(jù)認知和常識的聯(lián)合信息，我們可以推斷出整個情況：人們在吃飯前祈禱。

這種視覺常識推理范式廣泛存在于人們的日常生活中。比如說看電影的時候，我們通常會對人物的意圖、故事的結(jié)局等做出很多推斷。更重要的是，在社會互動的過程中，我們還必須推斷人們的行為、目標(biāo)和心理狀態(tài)。這對人類來說似乎不費吹灰之力，但對計算機來說卻極其困難，因為：(1)人類常識推理往往伴隨著經(jīng)驗知識的積累，而計算機缺乏這種知識。(2)除了識別級的視覺理解之外，計算機還需要對圖像所引起的隱含上下文進行更深層次的推理

?針對上述問題，我們提出了基于常識的推理模型CKRM(Common-Sense Knowledge Based Reason Model)來獲取外部知識，并利用這些知識來支持可視化常識推理任務(wù)。主要貢獻可以概括為：

多層次的知識轉(zhuǎn)移網(wǎng)絡(luò)：

為了彌合識別級和認知級圖像理解之間的差距，我們通過遷移學(xué)習(xí)注入從現(xiàn)有數(shù)據(jù)中獲取的外部知識，實現(xiàn)了細胞級、層級和注意力級的聯(lián)合信息傳遞。它可以從不同的角度傳遞知識，并提供互補的提示，激活計算機提前知道一些常識。

基于知識的推理：

為了進一步向認知級圖像理解邁進，充分利用轉(zhuǎn)移的知識，我們提出了一種基于知識的推理方法。它由兩個主要組成部分組成：

豐富知識的視覺注意，它將傳遞的知識與視覺內(nèi)容聯(lián)系起來，實現(xiàn)推理線索的細粒度對齊

推理合成，合成推理線索，得出最終答案

多級知識傳遞網(wǎng)絡(luò)和基于知識的推理方法形成了端到端的體系結(jié)構(gòu)。因此，它們可以共同優(yōu)化，以相互促進遷移學(xué)習(xí)和推理，從而提高視覺常識推理任務(wù)的績效。為了驗證我們提出的方法的有效性，我們在VCR數(shù)據(jù)集上進行了大量的實驗，并取得了最新的結(jié)果。

CONCLUSION

本文提出了CKRM來獲取外部常識，并注入這些常識來支持可視化常識推理任務(wù)。我們首先提出了一個多層次的知識轉(zhuǎn)移網(wǎng)絡(luò)，從不同的角度獲取知識，即從源任務(wù)中獲取細胞級、層級和注意力級的信息。其次，我們進一步提出了一種基于知識的推理方法，該方法可以充分利用傳遞的知識來推導(dǎo)推理結(jié)果。作為一種端到端的體系結(jié)構(gòu)，我們的方法可以共同優(yōu)化，以相互促進遷移學(xué)習(xí)和推理。為了驗證該方法的有效性，我們在VCR上進行了實驗。在未來的工作中，我們將加入更多的知識類型來輔助視覺常識推理任務(wù)。將深度學(xué)習(xí)與傳統(tǒng)人工智能方法相結(jié)合是一個很有前途的方向，我們將探索如何更好地將經(jīng)典的基于知識的方法與深度學(xué)習(xí)相結(jié)合。

提出的問題：

計算機不能像人類一樣推斷出隱藏在圖像中的東西，需要了解外部是怎樣運作的。

人類常識推斷往往伴隨著經(jīng)驗知識的積累，而計算機缺乏這種知識，計算機還需要對圖像所引起的隱含上下文進行更深層次的推理。

解決方案：

通過遷移學(xué)習(xí)的思想，從多個層級進行知識嵌入的學(xué)習(xí)，利用事實常識推理的任務(wù)獲取常識知識，使用到視覺常識推理。

討論：

本文的主要思想就是使用一個遷移學(xué)習(xí)的方法，從一個源任務(wù)的訓(xùn)練中獲取不同層級常識知識，然后用于視覺推理任務(wù)，并提出了一個推理模塊。

這種遷移學(xué)習(xí)的方式，將常識知識隱式提取與應(yīng)用。兩種任務(wù)的學(xué)習(xí)方式，帶來大量的計算。

總結(jié)

以上是生活随笔為你收集整理的Multi-Level Knowledge Injecting for Visual Commonsense Reasoning的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 12306 出票的一种算法设计
下一篇：两年狂开两万家店，合伙人落地方案分享