日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Zero-Shot Graph Relation Prediction through Commonsense Knowledge Integration

發(fā)布時間:2024/1/18 编程问答 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Zero-Shot Graph Relation Prediction through Commonsense Knowledge Integration 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

  • Abstract
  • Introduction
    • 挑戰(zhàn):在zero-shot triplets上的性能下降
    • 動機:應(yīng)用常識解決zero-shot relation prediction
      • Insight 1: Neighbor commonsense reflects semantic similarity
      • Insight 2: Path commonsense reflects relation similarity
    • 方法:Scene Graph Relation Prediction through CommonsenseKnowledge Integration
  • Motivating Analysis
    • Ignorance yet Importance of Zero-Shot Triplets
    • Commonsense Knowledge from ConceptNet Neighbors
    • Commonsense Knowledge from ConceptNet Paths
  • COACHER
    • Backbone Scene Graph Generation Pipeline
    • Commonsense Integrator
      • Neighbor integrator
      • Path integrator
      • Fused integrator
  • Experiments
    • 實驗設(shè)置
      • Original whole dataset——Visual Genome
      • Zero-shot amplified dataset
      • Compared algorithms
      • Evaluation metrics

Abstract

scene graph generation:介紹

圖像中實體之間的關(guān)系預(yù)測是SGG中的重要步驟,但是目前的方法無法建模沒見過的三元組。

本文認(rèn)為這一問題的根源在于缺乏對常識的推理。因此,本文提出了集成常識的場景關(guān)系預(yù)測框架。

Introduction

場景圖中的關(guān)系實例被定義為三元組<主語、關(guān)系、對象>。在給定兩個被檢測實體的情況下,根據(jù)學(xué)習(xí)到的關(guān)系模型的概率評分來預(yù)測他們之間存在的關(guān)系。然而,現(xiàn)有的大多數(shù)場景圖生成模型依賴于大量的訓(xùn)練來記憶。

挑戰(zhàn):在zero-shot triplets上的性能下降

有兩種類型的三元組,即訓(xùn)練數(shù)據(jù)中看到的三元組和未看到的三元組。

在訓(xùn)練數(shù)據(jù)中觀察到三元組< man,eating, pizza >。如果這個三元組在測試階段再次出現(xiàn),那么它被稱為非零射三元組。相比之下,一個三元組< child, eating, pizza >具有在訓(xùn)練數(shù)據(jù)中未觀察到的新的實體-關(guān)系組合稱為零次三元組。

動機:應(yīng)用常識解決zero-shot relation prediction

常識知識是指關(guān)于世界的一般事實,它使人類能夠在不熟悉的情況下進行推理。基于這一過程,本文從人類的角度出發(fā),提出了整合常識性知識來緩解用之不竭的三元關(guān)系問題,提高SGG中零次關(guān)系預(yù)測的性能。

本文使用的常識知識來自Concept-Net,這是一個來自人群的語義知識圖,包含關(guān)于現(xiàn)實世界概念的豐富結(jié)構(gòu)化知識。

Insight 1: Neighbor commonsense reflects semantic similarity

在ConceptNet中,兩個單獨節(jié)點之間的鄰居相似度表示他們在現(xiàn)實世界中的語義相似性。

例如,在圖1中,child和man有許多共同的鄰居,如fun,sleep,boy等,這表明child和man可能是相似的,因此與其他實體有類似的互動。如果模型在訓(xùn)練數(shù)據(jù)中看到一個三元組< man, eating, pizza >,那么由于知道child在語義上與m
an相似,它應(yīng)該更容易從看不見但相似的圖像中識別出< child, eating, pizza >這樣的三元組。

因此可以通過對鄰居重合度建模來檢測兩個實體之間的語義相似度。

Insight 2: Path commonsense reflects relation similarity

在ConceptNet中,節(jié)點之間由多條連續(xù)的邊組成的路徑連接。如上圖所示,(child, pizza)和(man, pizza)的實體對共享共同的中間路徑,如< RelatedTo, human, desire, food, related - edto >。這種中間路徑的相似性表明,人與披薩之間的關(guān)系可能與孩子與披薩之間的關(guān)系相似。如果在訓(xùn)練數(shù)據(jù)中有三元組< man, eating, pizza >,那么模型應(yīng)該傾向于在一個看不見但相似的圖像中預(yù)測給定的關(guān)系(child,pizza)。根據(jù)上述思想,我們提議通過在ConceptNet中建模兩個實體與其他實體對的路徑重合來推斷兩個實體之間的關(guān)系。

方法:Scene Graph Relation Prediction through CommonsenseKnowledge Integration

本文提出了一個新的框架,該框架將外部常識知識集成到SGG中,用于零鏡頭三連詞的關(guān)系預(yù)測

Motivating Analysis

Ignorance yet Importance of Zero-Shot Triplets

由于對zero-shot settings的忽視,使得現(xiàn)有的方法對zero-shot triplets的關(guān)系預(yù)測效果顯著下降。下表顯示了三個最先進的模型在Visual Genome (SGG最廣泛使用的基準(zhǔn)數(shù)據(jù)集)上的性能。注意,這里使用的是平均召回,這是triplet- wisercall的平均結(jié)果。在不同k值下,non-zero-shot triplets的平均召回率幾乎是zero-shot triplets的兩倍,這表明在zero-shot關(guān)系預(yù)測上表現(xiàn)出了令人擔(dān)憂的惡化。

然而,這些zero-shot triplets代表了非常常見的關(guān)系,如< child, on, bus >,實際上比一些non-zero-shot triplets,如< bear, wearing, tie >更常見。對于< bear, wears, tie >等特定的三連詞,由于它們出現(xiàn)在訓(xùn)練數(shù)據(jù)中,并被模型記憶,因此其表現(xiàn)要好得多,但由于缺乏泛化能力,這種記憶在現(xiàn)實中的效用相當(dāng)有限。

本研究將重點放在整合來自外部資源的常識知識,以提高zero-shot triplets的關(guān)系預(yù)測性能。具體地說,我們將ConceptNet作為來自其他替代方案的外部知識資源,因為它對概念的廣泛覆蓋和伴隨的概念語義嵌入是有用的功能[13]。在ConceptNet中,每個概念(單詞或短語)被建模為一個節(jié)點,每條邊表示兩個概念之間的關(guān)系。由于其廣泛的覆蓋范圍,我們能夠?qū)isual Genome中的每個實體類鏈接到ConceptNe中的一個節(jié)點。

Commonsense Knowledge from ConceptNet Neighbors

Visual Genome中類之間的語義相似度可以看作是它們在ConceptNet中對應(yīng)節(jié)點的鄰域相似度,鄰域相似度可以用它們的鄰域Jaccard相似度來計算:

兩個節(jié)點的鄰居的交集數(shù)量比上并集數(shù)量。

為了驗證在conceptnet中使用鄰域相似度作為VIsual Genome語義相似度度量的有效性,我們計算了視覺基因組中觀察最多的150個類的每對之間的相似度,并將它們的相似度按降序排列的結(jié)果。

Commonsense Knowledge from ConceptNet Paths

在ConceptNet中,除了來自鄰居的一跳信息外,由多條邊組成的路徑還可以進一步編碼豐富的多跳信息。具體來說,如果兩對實體在ConceptNet中由許多相同的路徑連接,它們更有可能共享類似的關(guān)系。為了研究ConceptNet上節(jié)點對之間的這種路徑關(guān)系,我們將中路徑定義為:

MidPath:不包含兩端節(jié)點的路徑。

例如,給定節(jié)點people和street之間的路徑< people, RelatedTo,automobile, AtLocation, street >,對應(yīng)的MidPath為< RelatedTo,automobile, AtLocation>。

COACHER

Backbone Scene Graph Generation Pipeline

場景圖生成管道包含了三個部分:

  • object detection:使用Faster R-CNN作為檢測器,從圖中得到一系列的候選框B、類向量D和視覺嵌入E。
  • label refinement:對D得到的類向量細(xì)化,為每個區(qū)域生成一個實體類的one-hot向量,用于關(guān)系預(yù)測。
  • relation prediction:在得到細(xì)化后的類標(biāo)簽后,本文使用他們來進一步生成上下文嵌入:
  • 首先得到背景向量,然后得到細(xì)化的節(jié)點類別預(yù)測向量,接著得到上下文向量,最后得到邊向量。依靠邊向量,就能得到邊類別預(yù)測向量。這一過程大概如下圖所示:

    采用LSTM的本質(zhì)也是希望能夠建模上下文信息。

    Commonsense Integrator

    常識知識的整合是通過外部資源的計算來實現(xiàn)的。具體來說,我們在這里使用ConceptNet作為外部常識知識的來源。概念網(wǎng)是一種知識圖譜,它將自然語言中的單詞和短語用標(biāo)記的邊連接起來。它是由豐富的資源如維基詞典和WordNet構(gòu)建的。通過這些資源的組合,ConceptNet包含了超過2100萬個邊和超過800萬個節(jié)點,覆蓋了Visual Genome中的所有實體類。此外,它還為每個節(jié)點提供語義嵌入作為語義特征。在這里,我們開發(fā)了三種類型的集成器來從ConceptNet生成常識嵌入。

    Neighbor integrator


    檢測到的實體對應(yīng)類別的鄰居嵌入為鄰居向量的平均。一對實體的編碼如下所示:

    Path integrator


    從ConceptNet中找出路徑,然后按照跳數(shù)分類。每一跳內(nèi)都形成了一張圖。

    經(jīng)典的序列模型如LSTM不能有效地處理非常短的路徑。受用于圖表示學(xué)習(xí)的消息傳遞網(wǎng)絡(luò)的啟發(fā)[2,16],我們設(shè)計了一種神經(jīng)消息傳遞機制來學(xué)習(xí)每一組l-hop路徑的表示。最后將它們結(jié)合起來,形成基于路徑的常識嵌入。

    Fused integrator

    為了融合基于鄰居和基于路徑的常識知識,我們通過初始化的方式將基于鄰居的知識注入到基于路徑的知識中 M S G v 0 ( v ) = M E A N ( F v , e n b v ) MSG_v^0(v)=MEAN(F_v,e_{nb}^v) MSGv0?(v)=MEAN(Fv?,enbv?)

    Experiments

    實驗設(shè)置

    Original whole dataset——Visual Genome

    斯坦福大學(xué)李飛飛組于2016年發(fā)布的大規(guī)模圖片語義理解數(shù)據(jù)集,他們希望該數(shù)據(jù)集能像ImageNet那樣推動圖片高級語義理解方面的研究。

    其主要由四個組成部分:

  • Region Description:圖片被劃分為一個個region,每個region都有與其對應(yīng)的一句自然語言描述;
  • Region Graph:每個region中的object、attribute、relationship被提取出來構(gòu)成局部的Scene Graph;
  • Scene Graph:將圖中的每一個region合并成一個全局Scene Graph;
  • QA;
  • 原來的整個數(shù)據(jù)集。對于場景圖的生成,我們使用Visual Genome數(shù)據(jù)集(SGG的常用基準(zhǔn))來訓(xùn)練和測試我們的框架。該數(shù)據(jù)集包含108,077張圖像,其中類和關(guān)系的數(shù)量分別為75,729和40,480。然而,92%的關(guān)系沒有超過10次,因此,我們遵循Visual Genome中廣泛使用的拆分策略,選擇最頻繁的150個對象類和50個關(guān)系作為代表。此外,我們使用70%的圖像及其對應(yīng)的實體和關(guān)系作為訓(xùn)練集,剩下的30%的圖像留作測試。從訓(xùn)練集中分離出一個5k規(guī)模的驗證集用于參數(shù)調(diào)優(yōu)。

    Zero-shot amplified dataset

    為了進一步研究模型在更嚴(yán)格的零次設(shè)置下的泛化能力,我們通過構(gòu)建另一個零次放大數(shù)據(jù)集來減少模型在訓(xùn)練過程中可以利用的信息。這是通過簡單地從訓(xùn)練數(shù)據(jù)中刪除包含較少常見關(guān)系的圖像來實現(xiàn)的。結(jié)果,后30個公共關(guān)系的三元數(shù)減半,而前20個公共關(guān)系的三元數(shù)基本保持不變。這樣,我們增加了模型的難度,特別是在預(yù)測零次三元組的關(guān)系時。

    Compared algorithms

  • NeuralMotifs(NM):SGG 任務(wù)的baseline;
  • NM+:是SGG目前唯一利用外部知識的方法,也是最接近我們的方法。該方法主要包括知識細(xì)化和圖像重建兩個新部分;
  • TDE:是目前最先進的場景圖形生成方法。這項工作也是VisualGenome上第一個報告零次性能的工作,但它并不需要努力去改進它;
  • CSK-N:是基于我們的框架的基線,在沒有視覺信息的情況下進行預(yù)測。給定一對實體,我們只使用基于鄰居的常識知識嵌入來預(yù)測它們的關(guān)系。
  • Evaluation metrics

    Recall@K:對于每個樣本,只要置信度前K的標(biāo)簽中有正確的就算成功召回。

    zR@K:Recall@K在零次子集中的得分。

    總結(jié)

    以上是生活随笔為你收集整理的Zero-Shot Graph Relation Prediction through Commonsense Knowledge Integration的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。