日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 用于视觉推理的显式知识集成

發(fā)布時間:2024/7/5 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 用于视觉推理的显式知识集成 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

論文筆記整理:劉克欣,天津大學(xué)碩士

鏈接:https://openaccess.thecvf.com/content/CVPR2021/papers/Zhang_Explicit_Knowledge_Incorporation_for_Visual_Reasoning_CVPR_2021_paper.pdf

動機(jī)

現(xiàn)有的可解釋的和顯式的視覺推理方法僅執(zhí)行基于視覺證據(jù)的推理,而不考慮視覺場景之外的知識。為了解決視覺推理方法和真實世界圖像語義復(fù)雜性之間的知識鴻溝,文章提出了第一個顯式視覺推理方法,該方法結(jié)合了外部知識并對高階關(guān)系注意進(jìn)行建模,以提高視覺推理的泛化性和可解釋性。

亮點

文章的亮點主要包括:

1.首次提出利用外部知識和神經(jīng)模塊來實現(xiàn)可泛化性和可解釋性的顯示視覺推理模型;2.設(shè)計了一個新穎的知識集成網(wǎng)絡(luò)(Knowledge Incorporation Network, KINet),將外部知識作為額外的節(jié)點和邊顯式地集成到場景圖中,為推理提供豐富的語義;3.設(shè)計了一個基于場景圖拓?fù)浜驼Z義實現(xiàn)高階關(guān)系關(guān)注的圖相關(guān)(Graph-Relate)模塊。

概念及模型

文章提出的方法利用場景圖、外部知識和神經(jīng)模塊這三部分實現(xiàn)可解釋的、顯式視覺推理。首先通過顯式地結(jié)合外部知識來創(chuàng)建豐富的場景圖,然后執(zhí)行由問題生成的神經(jīng)模塊程序。

文章的方法主要包括兩部分:

?知識集成網(wǎng)絡(luò)(Knowledge Incorporation Network , KI-Net):將外部知識圖中的實體和謂詞顯式地合并到場景圖中。?圖關(guān)聯(lián)(Graph-Relate, G-Relate)模塊:基于強(qiáng)化的場景圖學(xué)習(xí)高階知識。

模型整體框架如下:

?知識集成網(wǎng)絡(luò)

知識集成網(wǎng)絡(luò)將外部知識作為節(jié)點引入場景圖中:首先,基于外部知識圖的拓?fù)?#xff0c;執(zhí)行拓?fù)鋽U(kuò)展(topological extension),以將外部關(guān)系合并到場景圖中(例如,上圖中,通過顯式地在場景圖中添加shirt和helmet節(jié)點,增加了man-wearing-shirt和man-wearing-helmet)。然后,考慮視覺和語義特征,執(zhí)行語義細(xì)化(semantic refinement)以選擇性地丟棄與視覺相關(guān)性低的候選實體(例如上圖中的shirt)。知識集成網(wǎng)絡(luò)產(chǎn)生一個增強(qiáng)的場景圖,允許神經(jīng)模塊對集成的語義進(jìn)行顯式推理。它由使用交叉熵?fù)p失的基本真實場景圖注釋來監(jiān)督。拓?fù)鋽U(kuò)展時,首先利用場景圖和知識圖譜中語義相同的節(jié)點e,在兩個圖譜之間搭建橋梁。用d(., .)表示兩個節(jié)點之間的關(guān)系,則知識圖譜中與節(jié)點e相鄰的節(jié)點e’和邊p’如果滿足下式,就會被添加到場景圖中:

語義細(xì)化時,文章計算一個相關(guān)性矩陣M來衡量不同實體之間的特征相關(guān)性。M中的元素mij的更新方式如下:

其中,hi和hj是圖譜中兩個相鄰節(jié)點vi和vj的特征,N(vi)表示vi的鄰域。

?神經(jīng)模塊推理

神經(jīng)推理模塊引入圖關(guān)聯(lián)(G-Relate)模塊,通過計算非相鄰圖節(jié)點的注意力獲取高階關(guān)系。作者設(shè)計了三種類型的神經(jīng)網(wǎng)絡(luò):注意力(attention)、邏輯(logic)和輸出(output)。注意力在推理過程中計算不同圖像內(nèi)容(例如,圖像特征或場景圖節(jié)點)的相對重要性。基于注意模塊,邏輯模塊(也就是,And,Or和Not)基于注意權(quán)重執(zhí)行邏輯操作,輸出模塊(也就是,Compare,Count,Exist,Choose,Describe和Verify)根據(jù)不同的問題類型計算輸出特征。特定的神經(jīng)模塊及其實現(xiàn)如下表所示。

這三類神經(jīng)模塊組成一個程序,對豐富的場景圖進(jìn)行推理。

其中的G-Relate模塊可以在強(qiáng)化的場景圖上推斷高階關(guān)系,因此注意可以通過關(guān)聯(lián)路徑被轉(zhuǎn)換以到達(dá)遠(yuǎn)距離實體。給定注意a,G-Relate模塊計算轉(zhuǎn)換矩陣Wh以在場景圖中傳播注意。通過轉(zhuǎn)換矩陣,圖注意的更新方式為:

其中norm(.)表示使用softmax函數(shù)對所有實體節(jié)點的注意權(quán)重進(jìn)行規(guī)范化。實體ei和實體ej之間的轉(zhuǎn)換權(quán)重wij的計算方式如下:

理論分析

實驗

作者采用了2個公開數(shù)據(jù)集進(jìn)行實驗,分別是:GQA和VQAv2。首先是有效性實驗,模型的評價指標(biāo)為準(zhǔn)確率。

文章所提的方法在GQA測試數(shù)據(jù)集上獲得了64.21%的總體準(zhǔn)確性,在VQAv2驗證數(shù)據(jù)集上獲得了67.32%的總體準(zhǔn)確性,在兩個數(shù)據(jù)集上都優(yōu)于最先進(jìn)的神經(jīng)模塊模型。

此外,文章中展示了定性實例以及幫助預(yù)測的從外部知識中集成的關(guān)鍵關(guān)系。在多源外部知識的幫助下,文章的方法對具有域外知識的問題更具普適性,對開放性問題(見下圖a)和二元性問題(見下圖b-d)的回答更具體、更正確。

同時,作者在VQAv2驗證數(shù)據(jù)集上將所提的KI-Net與最先進(jìn)的場景圖生成模型GB-Net進(jìn)行了比較。

實驗顯示了相關(guān)實體和謂詞的顯式合并允許KI-Net在所有度量上生成更好的場景圖。

為了證明KI-Net在包含多個知識源以生成豐富場景圖方面的能力,文章比較了WordNet、ConceptNet、Visual Genome或所有三者的組合的有效性。

實驗表明,即使只有一個外部知識庫,KI-Net也能顯著提高場景圖的質(zhì)量。

總結(jié)

文章通過引入一種強(qiáng)調(diào)外部知識和高階關(guān)系注意的顯式集成的可解釋和顯式視覺推理方法來解決視覺推理的可概括性和可解釋性。它由一個知識集成網(wǎng)絡(luò)(KI-Net)和一個圖關(guān)聯(lián)(G-Relate)模塊組成,知識集成網(wǎng)絡(luò)顯式地集成了新的實體和謂詞來豐富場景圖的語義,圖關(guān)聯(lián)(G-Relate)模塊用來推斷高階關(guān)系。文章的方法可以回答關(guān)于真實世界圖像的一般性問題,同時具有普遍性和可解釋性。


OpenKG

OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進(jìn)知識圖譜算法、工具及平臺的開源開放。

點擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | 用于视觉推理的显式知识集成的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。