日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Multi-Level Knowledge Injecting for Visual Commonsense Reasoning

發(fā)布時間:2024/1/18 编程问答 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Multi-Level Knowledge Injecting for Visual Commonsense Reasoning 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

摘要——當(dāng)瀏覽一幅圖像時,人類可以推斷出隱藏在圖像中的東西,而不是視覺上明顯的東西,例如物體的功能、人的意圖和精神狀態(tài)。然而,這種視覺推理范式對計算機來說非常困難,需要了解世界是如何工作的。為了解決這個問題,我們提出了基于常識知識的推理模型(CKRM)來獲取外部知識,以支持視覺常識推理(VCR)任務(wù),其中計算機被期望回答具有挑戰(zhàn)性的視覺問題。我們的核心思想是:(1)通過多層次知識轉(zhuǎn)移網(wǎng)絡(luò)注入外部常識知識,實現(xiàn)細胞級、層級和注意力級的聯(lián)合信息轉(zhuǎn)移,從而彌合識別級和認知級圖像理解之間的鴻溝。它可以有效地從不同的角度捕捉知識,提前感知人類的常識。(2)為了進一步促進認知水平上的圖像理解,我們提出了一種基于知識的推理方法,該方法可以將轉(zhuǎn)移的知識與視覺內(nèi)容相關(guān)聯(lián),并組成推理線索來獲得最終答案。在具有挑戰(zhàn)性的視覺常識推理數(shù)據(jù)集VCR上進行的實驗驗證了我們提出的CKRM方法的有效性,該方法可以顯著提高推理性能并達到最先進的精度。

INTRODUCTION

通過對場景的一瞥,人們不僅可以知道場景中明顯的東西(例如物體、物體的位置、物體的狀態(tài)和動作),而且可以推斷出許多不明顯的事情(例如物體的功能、人的心理狀態(tài)和即將發(fā)生的事情)。目前,計算機算法在圖像分類[1]、[2]、目標(biāo)檢測[3]-[5]、動作識別[6]、[7]、場景解析[8]、[9]等識別任務(wù)上取得了很大進展。然而,在處理涉及推理的任務(wù),特別是常識性推理時,計算機還有很長的路要走。

推理作為人類的一種重要能力,在人工智能領(lǐng)域受到了廣泛關(guān)注。在文本理解領(lǐng)域,一個具有代表性的任務(wù)是自然語言推理[10](也稱為文本蘊涵識別),它需要計算機來判斷假設(shè)是否可以從前提中推斷出來。然而,這種語言蘊涵主要側(cè)重于對句子對之間的關(guān)系進行建模,而不是認知層面的推理。許多視覺和語言任務(wù)被認為是令人信服的“人工智能完備”任務(wù)[11],這些任務(wù)除了需要單一通道外,還需要多通道推理。最具代表性的任務(wù)之一是視覺問答(VQA)[12]、[13],它旨在自動推斷視覺問題的文本答案。由于深度神經(jīng)網(wǎng)絡(luò)在計算機視覺和自然語言處理方面具有很強的學(xué)習(xí)能力,這方面的研究已經(jīng)取得了很大的進展。計算機在回答與圖像內(nèi)容直接相關(guān)的問題方面取得了長足的進步,如物體的類別、編號和顏色[14]-[16]。然而,當(dāng)面對明確的信息不夠、需要更多常識的問題時,性能仍然遠遠不能令人滿意[17]。因此,如何有效地獲取和結(jié)合人類常識是更好地處理VQA任務(wù)的有效途徑

作為推理的一個分支,常識推理在從自然語言處理到計算機視覺的許多人工智能領(lǐng)域都具有非常重要的意義。本文主要研究視覺常識推理(VCR)它模擬了人類對日常遇到的常見情況進行推理的能力。與傳統(tǒng)的VQA任務(wù)不同,VCR對認知水平的視覺理解提出了更高的要求。例如,我們不是把注意力集中在一個低層次的動作上:“一個男孩單膝跪向一個女孩”,而是希望聯(lián)系常識,推斷出:“男孩可能想向女孩求婚。”

圖1顯示了可視化常識推理的一個示例。對于給定的圖像,會問一個問題:“為什么每個人都低著頭坐著?”當(dāng)人們面對這個問題時,我們可以首先識別物體(食物、盤子、餐桌等),然后進一步推斷這種情況很可能發(fā)生在吃東西的時候。此外,餐桌上還有未吃的食物,每個人都閉上了眼睛。他們中的大多數(shù)人還把手放在前面,低著頭。然后,我們講述了一個常識,即“信教的人通常在吃飯前手牽手,低下頭,閉上眼睛,祈禱感謝”。根據(jù)認知和常識的聯(lián)合信息,我們可以推斷出整個情況:人們在吃飯前祈禱。

這種視覺常識推理范式廣泛存在于人們的日常生活中。比如說看電影的時候,我們通常會對人物的意圖、故事的結(jié)局等做出很多推斷。更重要的是,在社會互動的過程中,我們還必須推斷人們的行為、目標(biāo)和心理狀態(tài)。這對人類來說似乎不費吹灰之力,但對計算機來說卻極其困難,因為:(1)人類常識推理往往伴隨著經(jīng)驗知識的積累,而計算機缺乏這種知識。(2)除了識別級的視覺理解之外,計算機還需要對圖像所引起的隱含上下文進行更深層次的推理

?針對上述問題,我們提出了基于常識的推理模型CKRM(Common-Sense Knowledge Based Reason Model)來獲取外部知識,并利用這些知識來支持可視化常識推理任務(wù)。主要貢獻可以概括為:

多層次的知識轉(zhuǎn)移網(wǎng)絡(luò):

為了彌合識別級和認知級圖像理解之間的差距,我們通過遷移學(xué)習(xí)注入從現(xiàn)有數(shù)據(jù)中獲取的外部知識,實現(xiàn)了細胞級、層級和注意力級的聯(lián)合信息傳遞。它可以從不同的角度傳遞知識,并提供互補的提示,激活計算機提前知道一些常識。

基于知識的推理:

為了進一步向認知級圖像理解邁進,充分利用轉(zhuǎn)移的知識,我們提出了一種基于知識的推理方法。它由兩個主要組成部分組成:

  • 豐富知識的視覺注意,它將傳遞的知識與視覺內(nèi)容聯(lián)系起來,實現(xiàn)推理線索的細粒度對齊
  • 推理合成,合成推理線索,得出最終答案
  • 多級知識傳遞網(wǎng)絡(luò)和基于知識的推理方法形成了端到端的體系結(jié)構(gòu)。因此,它們可以共同優(yōu)化,以相互促進遷移學(xué)習(xí)和推理,從而提高視覺常識推理任務(wù)的績效。為了驗證我們提出的方法的有效性,我們在VCR數(shù)據(jù)集上進行了大量的實驗,并取得了最新的結(jié)果。

    CONCLUSION

    本文提出了CKRM來獲取外部常識,并注入這些常識來支持可視化常識推理任務(wù)。我們首先提出了一個多層次的知識轉(zhuǎn)移網(wǎng)絡(luò),從不同的角度獲取知識,即從源任務(wù)中獲取細胞級、層級和注意力級的信息。其次,我們進一步提出了一種基于知識的推理方法,該方法可以充分利用傳遞的知識來推導(dǎo)推理結(jié)果。作為一種端到端的體系結(jié)構(gòu),我們的方法可以共同優(yōu)化,以相互促進遷移學(xué)習(xí)和推理。為了驗證該方法的有效性,我們在VCR上進行了實驗。在未來的工作中,我們將加入更多的知識類型來輔助視覺常識推理任務(wù)。將深度學(xué)習(xí)與傳統(tǒng)人工智能方法相結(jié)合是一個很有前途的方向,我們將探索如何更好地將經(jīng)典的基于知識的方法與深度學(xué)習(xí)相結(jié)合

    提出的問題:

    計算機不能像人類一樣推斷出隱藏在圖像中的東西,需要了解外部是怎樣運作的。

    人類常識推斷往往伴隨著經(jīng)驗知識的積累,而計算機缺乏這種知識,計算機還需要對圖像所引起的隱含上下文進行更深層次的推理

    解決方案:

    通過遷移學(xué)習(xí)的思想,從多個層級進行知識嵌入的學(xué)習(xí),利用事實常識推理的任務(wù)獲取常識知識,使用到視覺常識推理。

    討論:

    本文的主要思想就是使用一個遷移學(xué)習(xí)的方法,從一個源任務(wù)的訓(xùn)練中獲取不同層級常識知識,然后用于視覺推理任務(wù),并提出了一個推理模塊。

    這種遷移學(xué)習(xí)的方式,將常識知識隱式提取與應(yīng)用。兩種任務(wù)的學(xué)習(xí)方式,帶來大量的計算。

    ?

    總結(jié)

    以上是生活随笔為你收集整理的Multi-Level Knowledge Injecting for Visual Commonsense Reasoning的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。