當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Zero-Shot Graph Relation Prediction through Commonsense Knowledge Integration

發(fā)布時(shí)間：2024/1/18 编程问答 51 豆豆

生活随笔收集整理的這篇文章主要介紹了 Zero-Shot Graph Relation Prediction through Commonsense Knowledge Integration 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

Abstract
Introduction
- 挑戰(zhàn)：在zero-shot triplets上的性能下降
- 動機(jī)：應(yīng)用常識解決zero-shot relation prediction
- - Insight 1: Neighbor commonsense reflects semantic similarity
  - Insight 2: Path commonsense reflects relation similarity
- 方法：Scene Graph Relation Prediction through CommonsenseKnowledge Integration
Motivating Analysis
- Ignorance yet Importance of Zero-Shot Triplets
- Commonsense Knowledge from ConceptNet Neighbors
- Commonsense Knowledge from ConceptNet Paths
COACHER
- Backbone Scene Graph Generation Pipeline
- Commonsense Integrator
- - Neighbor integrator
  - Path integrator
  - Fused integrator
Experiments
- 實(shí)驗(yàn)設(shè)置
- - Original whole dataset——Visual Genome
  - Zero-shot amplified dataset
  - Compared algorithms
  - Evaluation metrics

Abstract

scene graph generation：介紹

圖像中實(shí)體之間的關(guān)系預(yù)測是SGG中的重要步驟，但是目前的方法無法建模沒見過的三元組。

本文認(rèn)為這一問題的根源在于缺乏對常識的推理。因此，本文提出了集成常識的場景關(guān)系預(yù)測框架。

Introduction

場景圖中的關(guān)系實(shí)例被定義為三元組<主語、關(guān)系、對象>。在給定兩個(gè)被檢測實(shí)體的情況下，根據(jù)學(xué)習(xí)到的關(guān)系模型的概率評分來預(yù)測他們之間存在的關(guān)系。然而，現(xiàn)有的大多數(shù)場景圖生成模型依賴于大量的訓(xùn)練來記憶。

挑戰(zhàn)：在zero-shot triplets上的性能下降

有兩種類型的三元組，即訓(xùn)練數(shù)據(jù)中看到的三元組和未看到的三元組。

在訓(xùn)練數(shù)據(jù)中觀察到三元組< man,eating, pizza >。如果這個(gè)三元組在測試階段再次出現(xiàn)，那么它被稱為非零射三元組。相比之下，一個(gè)三元組< child, eating, pizza >具有在訓(xùn)練數(shù)據(jù)中未觀察到的新的實(shí)體-關(guān)系組合稱為零次三元組。

動機(jī)：應(yīng)用常識解決zero-shot relation prediction

常識知識是指關(guān)于世界的一般事實(shí)，它使人類能夠在不熟悉的情況下進(jìn)行推理。基于這一過程，本文從人類的角度出發(fā)，提出了整合常識性知識來緩解用之不竭的三元關(guān)系問題，提高SGG中零次關(guān)系預(yù)測的性能。

本文使用的常識知識來自Concept-Net，這是一個(gè)來自人群的語義知識圖，包含關(guān)于現(xiàn)實(shí)世界概念的豐富結(jié)構(gòu)化知識。

Insight 1: Neighbor commonsense reflects semantic similarity

在ConceptNet中，兩個(gè)單獨(dú)節(jié)點(diǎn)之間的鄰居相似度表示他們在現(xiàn)實(shí)世界中的語義相似性。

例如，在圖1中，child和man有許多共同的鄰居，如fun,sleep,boy等，這表明child和man可能是相似的，因此與其他實(shí)體有類似的互動。如果模型在訓(xùn)練數(shù)據(jù)中看到一個(gè)三元組< man, eating, pizza >，那么由于知道child在語義上與m
an相似，它應(yīng)該更容易從看不見但相似的圖像中識別出< child, eating, pizza >這樣的三元組。

因此可以通過對鄰居重合度建模來檢測兩個(gè)實(shí)體之間的語義相似度。

Insight 2: Path commonsense reflects relation similarity

在ConceptNet中，節(jié)點(diǎn)之間由多條連續(xù)的邊組成的路徑連接。如上圖所示，(child, pizza)和(man, pizza)的實(shí)體對共享共同的中間路徑，如< RelatedTo, human, desire, food, related - edto >。這種中間路徑的相似性表明，人與披薩之間的關(guān)系可能與孩子與披薩之間的關(guān)系相似。如果在訓(xùn)練數(shù)據(jù)中有三元組< man, eating, pizza >，那么模型應(yīng)該傾向于在一個(gè)看不見但相似的圖像中預(yù)測給定的關(guān)系(child,pizza)。根據(jù)上述思想，我們提議通過在ConceptNet中建模兩個(gè)實(shí)體與其他實(shí)體對的路徑重合來推斷兩個(gè)實(shí)體之間的關(guān)系。

方法：Scene Graph Relation Prediction through CommonsenseKnowledge Integration

本文提出了一個(gè)新的框架，該框架將外部常識知識集成到SGG中，用于零鏡頭三連詞的關(guān)系預(yù)測

Motivating Analysis

Ignorance yet Importance of Zero-Shot Triplets

由于對zero-shot settings的忽視，使得現(xiàn)有的方法對zero-shot triplets的關(guān)系預(yù)測效果顯著下降。下表顯示了三個(gè)最先進(jìn)的模型在Visual Genome (SGG最廣泛使用的基準(zhǔn)數(shù)據(jù)集)上的性能。注意，這里使用的是平均召回，這是triplet- wisercall的平均結(jié)果。在不同k值下，non-zero-shot triplets的平均召回率幾乎是zero-shot triplets的兩倍，這表明在zero-shot關(guān)系預(yù)測上表現(xiàn)出了令人擔(dān)憂的惡化。

然而，這些zero-shot triplets代表了非常常見的關(guān)系，如< child, on, bus >，實(shí)際上比一些non-zero-shot triplets，如< bear, wearing, tie >更常見。對于< bear, wears, tie >等特定的三連詞，由于它們出現(xiàn)在訓(xùn)練數(shù)據(jù)中，并被模型記憶，因此其表現(xiàn)要好得多，但由于缺乏泛化能力，這種記憶在現(xiàn)實(shí)中的效用相當(dāng)有限。

本研究將重點(diǎn)放在整合來自外部資源的常識知識，以提高zero-shot triplets的關(guān)系預(yù)測性能。具體地說，我們將ConceptNet作為來自其他替代方案的外部知識資源，因?yàn)樗鼘Ω拍畹膹V泛覆蓋和伴隨的概念語義嵌入是有用的功能[13]。在ConceptNet中，每個(gè)概念(單詞或短語)被建模為一個(gè)節(jié)點(diǎn)，每條邊表示兩個(gè)概念之間的關(guān)系。由于其廣泛的覆蓋范圍，我們能夠?qū)isual Genome中的每個(gè)實(shí)體類鏈接到ConceptNe中的一個(gè)節(jié)點(diǎn)。

Commonsense Knowledge from ConceptNet Neighbors

Visual Genome中類之間的語義相似度可以看作是它們在ConceptNet中對應(yīng)節(jié)點(diǎn)的鄰域相似度，鄰域相似度可以用它們的鄰域Jaccard相似度來計(jì)算：

兩個(gè)節(jié)點(diǎn)的鄰居的交集數(shù)量比上并集數(shù)量。

為了驗(yàn)證在conceptnet中使用鄰域相似度作為VIsual Genome語義相似度度量的有效性，我們計(jì)算了視覺基因組中觀察最多的150個(gè)類的每對之間的相似度，并將它們的相似度按降序排列的結(jié)果。

Commonsense Knowledge from ConceptNet Paths

在ConceptNet中，除了來自鄰居的一跳信息外，由多條邊組成的路徑還可以進(jìn)一步編碼豐富的多跳信息。具體來說，如果兩對實(shí)體在ConceptNet中由許多相同的路徑連接，它們更有可能共享類似的關(guān)系。為了研究ConceptNet上節(jié)點(diǎn)對之間的這種路徑關(guān)系，我們將中路徑定義為:

MidPath：不包含兩端節(jié)點(diǎn)的路徑。

例如，給定節(jié)點(diǎn)people和street之間的路徑< people, RelatedTo,automobile, AtLocation, street >，對應(yīng)的MidPath為< RelatedTo,automobile, AtLocation>。

COACHER

Backbone Scene Graph Generation Pipeline

場景圖生成管道包含了三個(gè)部分：

object detection：使用Faster R-CNN作為檢測器，從圖中得到一系列的候選框B、類向量D和視覺嵌入E。

label refinement：對D得到的類向量細(xì)化，為每個(gè)區(qū)域生成一個(gè)實(shí)體類的one-hot向量，用于關(guān)系預(yù)測。

relation prediction：在得到細(xì)化后的類標(biāo)簽后，本文使用他們來進(jìn)一步生成上下文嵌入：

首先得到背景向量，然后得到細(xì)化的節(jié)點(diǎn)類別預(yù)測向量，接著得到上下文向量，最后得到邊向量。依靠邊向量，就能得到邊類別預(yù)測向量。這一過程大概如下圖所示：

采用LSTM的本質(zhì)也是希望能夠建模上下文信息。

Commonsense Integrator

常識知識的整合是通過外部資源的計(jì)算來實(shí)現(xiàn)的。具體來說，我們在這里使用ConceptNet作為外部常識知識的來源。概念網(wǎng)是一種知識圖譜，它將自然語言中的單詞和短語用標(biāo)記的邊連接起來。它是由豐富的資源如維基詞典和WordNet構(gòu)建的。通過這些資源的組合，ConceptNet包含了超過2100萬個(gè)邊和超過800萬個(gè)節(jié)點(diǎn)，覆蓋了Visual Genome中的所有實(shí)體類。此外，它還為每個(gè)節(jié)點(diǎn)提供語義嵌入作為語義特征。在這里，我們開發(fā)了三種類型的集成器來從ConceptNet生成常識嵌入。

Neighbor integrator

檢測到的實(shí)體對應(yīng)類別的鄰居嵌入為鄰居向量的平均。一對實(shí)體的編碼如下所示：

Path integrator

從ConceptNet中找出路徑，然后按照跳數(shù)分類。每一跳內(nèi)都形成了一張圖。

經(jīng)典的序列模型如LSTM不能有效地處理非常短的路徑。受用于圖表示學(xué)習(xí)的消息傳遞網(wǎng)絡(luò)的啟發(fā)[2,16]，我們設(shè)計(jì)了一種神經(jīng)消息傳遞機(jī)制來學(xué)習(xí)每一組l-hop路徑的表示。最后將它們結(jié)合起來，形成基于路徑的常識嵌入。

Fused integrator

為了融合基于鄰居和基于路徑的常識知識，我們通過初始化的方式將基于鄰居的知識注入到基于路徑的知識中 $MSG_v^0(v)=MEAN(F_v,e_{nb}^v)$ 。

Experiments

實(shí)驗(yàn)設(shè)置

Original whole dataset——Visual Genome

斯坦福大學(xué)李飛飛組于2016年發(fā)布的大規(guī)模圖片語義理解數(shù)據(jù)集，他們希望該數(shù)據(jù)集能像ImageNet那樣推動圖片高級語義理解方面的研究。

其主要由四個(gè)組成部分：

Region Description：圖片被劃分為一個(gè)個(gè)region，每個(gè)region都有與其對應(yīng)的一句自然語言描述；

Region Graph：每個(gè)region中的object、attribute、relationship被提取出來構(gòu)成局部的Scene Graph；

Scene Graph：將圖中的每一個(gè)region合并成一個(gè)全局Scene Graph；

QA；

原來的整個(gè)數(shù)據(jù)集。對于場景圖的生成，我們使用Visual Genome數(shù)據(jù)集(SGG的常用基準(zhǔn))來訓(xùn)練和測試我們的框架。該數(shù)據(jù)集包含108,077張圖像，其中類和關(guān)系的數(shù)量分別為75,729和40,480。然而，92%的關(guān)系沒有超過10次，因此，我們遵循Visual Genome中廣泛使用的拆分策略，選擇最頻繁的150個(gè)對象類和50個(gè)關(guān)系作為代表。此外，我們使用70%的圖像及其對應(yīng)的實(shí)體和關(guān)系作為訓(xùn)練集，剩下的30%的圖像留作測試。從訓(xùn)練集中分離出一個(gè)5k規(guī)模的驗(yàn)證集用于參數(shù)調(diào)優(yōu)。

Zero-shot amplified dataset

為了進(jìn)一步研究模型在更嚴(yán)格的零次設(shè)置下的泛化能力，我們通過構(gòu)建另一個(gè)零次放大數(shù)據(jù)集來減少模型在訓(xùn)練過程中可以利用的信息。這是通過簡單地從訓(xùn)練數(shù)據(jù)中刪除包含較少常見關(guān)系的圖像來實(shí)現(xiàn)的。結(jié)果，后30個(gè)公共關(guān)系的三元數(shù)減半，而前20個(gè)公共關(guān)系的三元數(shù)基本保持不變。這樣，我們增加了模型的難度，特別是在預(yù)測零次三元組的關(guān)系時(shí)。

Compared algorithms

NeuralMotifs（NM）：SGG 任務(wù)的baseline；

NM+：是SGG目前唯一利用外部知識的方法，也是最接近我們的方法。該方法主要包括知識細(xì)化和圖像重建兩個(gè)新部分；

TDE：是目前最先進(jìn)的場景圖形生成方法。這項(xiàng)工作也是VisualGenome上第一個(gè)報(bào)告零次性能的工作，但它并不需要努力去改進(jìn)它；

CSK-N：是基于我們的框架的基線，在沒有視覺信息的情況下進(jìn)行預(yù)測。給定一對實(shí)體，我們只使用基于鄰居的常識知識嵌入來預(yù)測它們的關(guān)系。

Evaluation metrics

Recall@K：對于每個(gè)樣本，只要置信度前K的標(biāo)簽中有正確的就算成功召回。

zR@K：Recall@K在零次子集中的得分。

總結(jié)

以上是生活随笔為你收集整理的Zero-Shot Graph Relation Prediction through Commonsense Knowledge Integration的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：重新认识HTML（一）别来无恙
下一篇：打开思维，新年开工一定要元气满满！