论文浅尝 | 基于文本关联的知识图谱的无监督嵌入增强
來源:IJCAI2019
論文鏈接:?https://www.ijcai.org/proceedings/2019/0725.pdf
?
概述
知識(shí)圖譜嵌入是從多關(guān)系數(shù)據(jù)中提取數(shù)據(jù)的工具,最近的嵌入模型對(duì)從現(xiàn)有數(shù)據(jù)庫(kù)中推斷新事實(shí)具有很高的效率。然而,這種精確結(jié)構(gòu)的數(shù)據(jù)通常在數(shù)量和范圍上都是有限的。因此,要充分優(yōu)化嵌入,還必須考慮更廣泛可用的信息源(如文本)。本文描述了一種通過增加實(shí)體嵌入和關(guān)聯(lián)詞嵌入來整合文本信息的無監(jiān)督方法。該方法不修改知識(shí)圖譜嵌入的優(yōu)化目標(biāo),這允許它與已有的嵌入模型集成。同時(shí)考慮了兩種不同形式的文本數(shù)據(jù),并針對(duì)每種情況提出了不同的嵌入增強(qiáng)。在第一種情況下,每個(gè)實(shí)體都有一個(gè)描述它的關(guān)聯(lián)文本文檔。在第二種情況下,文本文檔不可用,相反,實(shí)體以單詞或短語的形式出現(xiàn)在非結(jié)構(gòu)化的文本片段語料庫(kù)中。實(shí)驗(yàn)表明,這兩種方法在應(yīng)用于多種不同的知識(shí)圖嵌入模型時(shí),都能有效地提高連接預(yù)測(cè)的性能。
?
模型和方法
?
嵌入增強(qiáng)方法
在本節(jié)中,作者將討論將文本數(shù)據(jù)合并到知識(shí)圖譜嵌入中的新方法。此附加信息允許培訓(xùn)過程學(xué)習(xí)同時(shí)從知識(shí)庫(kù)和相關(guān)文本中反映事實(shí)的實(shí)體表示。根據(jù)可用文本數(shù)據(jù)的形式,我們考慮兩種不同的場(chǎng)景:在第一種場(chǎng)景中,每個(gè)實(shí)體都有一個(gè)與之相關(guān)的文檔來描述或定義實(shí)體;例如,歐洲的維基百科條目。這些數(shù)據(jù)可以從許多來源獲得,包括百科全書或字典。在第二個(gè)場(chǎng)景中,我們考慮一個(gè)非結(jié)構(gòu)化的語料庫(kù),它不直接鏈接到任何實(shí)體,但包含在任意位置的實(shí)體。例如,一篇提到歐洲的新聞文章可能是這個(gè)語料庫(kù)的一部分。對(duì)本文的組織結(jié)構(gòu)沒有任何假設(shè),因此它通常可以是從多個(gè)文檔中收集的句子的集合。這兩種形式的數(shù)據(jù)之間的關(guān)鍵區(qū)別在于,在前者中,實(shí)體是文檔中所有單詞的基礎(chǔ)主題,而在后者中,實(shí)體只是包含未知主題的混合文檔中提到的對(duì)象。結(jié)果,第一種情況包含每個(gè)單詞以某種方式與已知實(shí)體相關(guān)的附加信息。對(duì)于第二種情況,我們只假設(shè)在相同上下文中出現(xiàn)的單詞之間存在關(guān)聯(lián)。這一區(qū)別如圖1所示。
? ? ? ? ? ??
1.1 實(shí)體描述的嵌入模型
?
在本節(jié)中,我們?yōu)閳D1中的第一個(gè)場(chǎng)景提供了一個(gè)模型,其中文本數(shù)據(jù)可用作實(shí)體描述。我們的方法基于[Socher等人,2013]的字向量模型,該模型將實(shí)體向量定義為實(shí)體名稱中字向量的平均值。首先,我們觀察到,該思想也可以應(yīng)用于實(shí)體描述,從而強(qiáng)制實(shí)體嵌入共享共同的文本特征,如屬性或關(guān)系詞。這將為語義上更相似的實(shí)體生成更相似的向量。然后,我們通過添加新參數(shù)來控制每個(gè)單詞對(duì)給定關(guān)系的實(shí)體組成的貢獻(xiàn)程度,從而改進(jìn)了該模型。
我們首先對(duì)WordVectors模型進(jìn)行形式化,我們已經(jīng)對(duì)其進(jìn)行了調(diào)整,以適應(yīng)實(shí)體描述的情況。設(shè)文本(ei)=wi,1,wi,2。. . 是與實(shí)體ei相關(guān)聯(lián)的單詞序列。設(shè)W表示詞向量的nw×d矩陣,其中nw是詞匯表中的詞個(gè)數(shù),d是嵌入維數(shù)。讓Ai表示nw維向量,使得Aik是單詞wk在文本中出現(xiàn)的次數(shù)(ei)。然后,ei的嵌入向量可以表示為
? ? ? ? ? ??
上述等式的一個(gè)限制是描述中的所有單詞都被同等對(duì)待;通常情況下,某些單詞比其他單詞更適合預(yù)測(cè)關(guān)系。例如,樂器、鼓和職業(yè)等詞可能比其他詞(如女演員或星期六)更能反映音樂團(tuán)體成員關(guān)系。因此,在預(yù)測(cè)音樂群體成員關(guān)系時(shí),應(yīng)以樂器、鼓、職業(yè)等詞來表示一個(gè)實(shí)體。
另一方面,在預(yù)測(cè)教育等不同關(guān)系時(shí),加拿大人、課程或常春藤等詞可能更具相關(guān)性,因此實(shí)體應(yīng)該更強(qiáng)烈地用這些詞來表示。這樣,包含“常春藤”一詞的實(shí)體向量在教育關(guān)系上比在音樂團(tuán)體成員中更為相似。因此,這種模型可以預(yù)測(cè)兩個(gè)實(shí)體共享前一種關(guān)系,而不是后一種關(guān)系。
這種行為可以通過引入nr×nw矩陣B來實(shí)現(xiàn),使得Bjk表示單詞wk在預(yù)測(cè)關(guān)系rj中的重要性。然后我們可以定義實(shí)體ei在關(guān)系rj下的表示為
? ? ? ??
這里⊙表示元素相乘。這樣,單詞wk對(duì)實(shí)體向量的總權(quán)重是文本中wk的頻率(e i)(即Aik)和wk與ri的相關(guān)性(即Bjk)的組合。
然而,每個(gè)詞對(duì)于預(yù)測(cè)每一種關(guān)系的意義通常是未知的。因此,我們用B i j=1對(duì)所有i,j初始化B,并通過梯度下降來學(xué)習(xí)這些參數(shù)。如第4節(jié)所示,該程序能夠自動(dòng)學(xué)習(xí)單詞與不同關(guān)系的關(guān)聯(lián),而無需任何監(jiān)督。
我們可以用公式3代替表1中的ei,將文本信息合并到任何知識(shí)圖嵌入模型中。例如,擴(kuò)展的TranSE模型是
? ? ? ? ? ? ? ? ? ? ? ?
我們稱這種方法為加權(quán)詞向量(WWV)。
?
1.2 一種參數(shù)有效加權(quán)方案
?
如前一節(jié)所述,WWV模型的一個(gè)潛在缺點(diǎn)是矩陣B中的參數(shù)數(shù)目為nr×nw,這對(duì)于某些數(shù)據(jù)集來說可能是非常大的。這可以通過允許Bij從較少數(shù)量的參數(shù)派生而不是將每個(gè)參數(shù)定義為獨(dú)立的參數(shù)來改進(jìn)。為此,我們引入nr×d矩陣P,并定義關(guān)系ri和單詞wj的權(quán)重如下:
? ? ? ? ? ? ? ? ? ? ??
公式4中Pi是單詞特征空間中關(guān)系ri的表示,與單詞向量Wj的特征空間相同。由于Pi和Wj使用相同的特征,PiWTj是ri和Wj之間相似性的度量,它充當(dāng)它們之間的權(quán)重。例如,我們可能期望關(guān)系ri=音樂組成員的向量Pi與關(guān)系Wj=樂器的向量Wj相似,因?yàn)橐魳方M和樂器的概念在語義上是相關(guān)的。
雖然使用softmax函數(shù)定義權(quán)重Bij在概念上很有吸引力,但實(shí)際上不需要標(biāo)準(zhǔn)化因子,因?yàn)樵诘仁?中所有權(quán)重都再次標(biāo)準(zhǔn)化。因此,我們可以將關(guān)系rj下的實(shí)體ei表示為:? ?
? ? ? ? ? ? ? ? ? ?
這里我們用展開形式表示了等式3的向量矩陣乘法,以便更清楚地顯示單詞的加權(quán)平均值。因此,可訓(xùn)練參數(shù)的數(shù)目從nr×nw減少到nr×d。我們將等式5中的模型稱為參數(shù)有效加權(quán)詞向量(PE-WWV)。盡管參數(shù)較少,但第4節(jié)證明了PE-WWV在預(yù)測(cè)精度上與WWV相當(dāng)。
?
1.3訓(xùn)練過程
?
在訓(xùn)練WWV和PE-WWV模型時(shí),由于單詞嵌入?yún)?shù)W和權(quán)重B都必須在沒有監(jiān)督的情況下同時(shí)學(xué)習(xí),因此產(chǎn)生了一個(gè)挑戰(zhàn)。也就是說,優(yōu)化器必須為每個(gè)關(guān)系發(fā)現(xiàn)最重要的詞,而不必對(duì)這些關(guān)系或詞進(jìn)行任何理解或描述。由于初始隨機(jī)性,優(yōu)化器在訓(xùn)練的早期階段可能會(huì)過分強(qiáng)調(diào)不相關(guān)的詞,然后永遠(yuǎn)找不到好的解決方案。
我們發(fā)現(xiàn),在前50個(gè)訓(xùn)練階段保持單詞權(quán)重(B和P)不變,可以大大緩解這個(gè)問題。這允許優(yōu)化器首先學(xué)習(xí)語義上有意義的單詞表示,而不會(huì)因?yàn)閱卧~權(quán)重的變化而中斷。然后,在剩余的訓(xùn)練階段,我們優(yōu)化所有參數(shù),并能夠發(fā)現(xiàn)最相關(guān)的單詞。
?
1.4非結(jié)構(gòu)化語料庫(kù)的嵌入模型
?
在本節(jié)中,我們考慮圖1中的第二個(gè)場(chǎng)景。為了從非結(jié)構(gòu)化數(shù)據(jù)中獲取信息,我們?cè)诮o定的語料庫(kù)上訓(xùn)練word2vec模型[Mikolov等人,2013],以學(xué)習(xí)單詞的嵌入向量。Word2vec被訓(xùn)練為將相似的向量分配給通常出現(xiàn)在相同上下文中的單詞,這使得它非常適合學(xué)習(xí)實(shí)體向量。例如,句子片段布賴恩瓊斯和他的吉他手基思理查茲開發(fā)了一個(gè)獨(dú)特的。。。很清楚地說明了布賴恩·瓊斯和基思·理查茲之間的關(guān)系。由于Brian Jones和Keith Richards在同一個(gè)上下文中以單詞的形式出現(xiàn),因此這些實(shí)體的word2vec向量將更類似于非結(jié)構(gòu)化語料庫(kù)的嵌入模型。
word2vec向量還可以捕獲顯示為屬性而不是句子對(duì)象的特征。在上面的例子中,這個(gè)句子還表示布賴恩·瓊斯和吉它之間的關(guān)聯(lián)。這對(duì)于預(yù)測(cè)布賴恩·瓊斯的其他關(guān)系類型(如樂器演奏或音樂團(tuán)體成員)可能是一個(gè)有力的暗示。當(dāng)給出這個(gè)訓(xùn)練語句時(shí),word2vec將學(xué)習(xí)在Brian Jones的向量中隱式地編碼該信息。這使得通過使用word2vec特征向量來增加實(shí)體嵌入中的信息成為可能。
整個(gè)模型的工作原理如下。讓wi表示實(shí)體ei的名稱的word2vec向量,讓ei表示實(shí)體向量。我們將實(shí)體ei的擴(kuò)充向量定義為:
? ? ? ? ? ? ? ? ? ? ? ? ??
因此,ei中的每個(gè)潛在特征都包含原始實(shí)體向量和word2vec向量的貢獻(xiàn)。和方程式一樣。3和5,式6可應(yīng)用于任何知識(shí)圖嵌入模型,方法是將表1中的ei替換為?ei。
由于word2vec在知識(shí)圖嵌入過程中學(xué)習(xí)了一組不同的潛在特征,因此我們使用矩陣M將word2vec特征空間中的向量映射到實(shí)體特征空間。注意,與在SE、TRANSR和RESCAL模型(即R、R(1)和R(2))中操作實(shí)體的特定于關(guān)系的轉(zhuǎn)換不同,M是所有關(guān)系類型通用的全局矩陣。因此,向量wM包含的特征有助于預(yù)測(cè)三元組,但可以從文本中學(xué)習(xí)。我們將公式6稱為特征和模型。
特征和模型分三個(gè)階段進(jìn)行訓(xùn)練。首先,在語料庫(kù)上訓(xùn)練word2vec獲得wi向量,然后兩個(gè)階段對(duì)排序損失目標(biāo)進(jìn)行優(yōu)化(方程1)。最初,M被設(shè)置為零并保持不變,而實(shí)體和關(guān)系參數(shù)E和R被優(yōu)化為100個(gè)階段。最后,包括M和wi在內(nèi)的所有參數(shù)在剩余的訓(xùn)練期間一起訓(xùn)練。
?
實(shí)驗(yàn)
在本節(jié)中,我們?cè)u(píng)估了在Freebase[Bollacker等人,2008]和Wordnet[Miller,1995]的標(biāo)準(zhǔn)子集上提出的嵌入增強(qiáng)方法。我們將這些方法應(yīng)用于表1中的每個(gè)評(píng)分函數(shù),證明了它們?cè)鰪?qiáng)現(xiàn)有嵌入模型的能力。我們首先將鏈路預(yù)測(cè)任務(wù)中的WWV和PE-WWV模型與包含實(shí)體描述的替代方法進(jìn)行定量比較,然后定性地檢查WWV模型,以更好地了解其性能。接下來,我們將FeatureSum模型與使用非結(jié)構(gòu)化文本語料庫(kù)的替代方法進(jìn)行比較。
?
WWV和PE-WWV結(jié)果
?
在本節(jié)中,我們將評(píng)估加權(quán)詞向量模型的兩個(gè)變體-WWV和PE-WWV。我們比較了合并格式化為實(shí)體描述的文本數(shù)據(jù)的替代方法,即WordVectors模型,但應(yīng)用于實(shí)體描述而不是名稱。我們把這個(gè)模型稱為WV-desc,我們還考慮了基線方法,稱為Base,其中實(shí)體向量簡(jiǎn)單地隨機(jī)初始化和優(yōu)化,沒有附加文本。
表2給出了這兩個(gè)數(shù)據(jù)集的平均rank和命中率@10指標(biāo)。考慮到WWV是WV的泛化,可以通過簡(jiǎn)單地在公式2中為每個(gè)j,k設(shè)置Bjk=1來減少WWV的性能,我們期望WWV的性能應(yīng)該比WV-desc好。事實(shí)上,WWV在大多數(shù)情況下的平均秩和命中率都優(yōu)于WV-desc。
令人有些意外的是,PE-WWV模型的性能至少和WWV一樣好,在許多情況下甚至更好。有人可能會(huì)認(rèn)為PE-WWV的性能會(huì)更差,因?yàn)樗谋硎救萘坎淮笥赪WV。通過設(shè)置Bjk=exp(PjWTk),可以使WWV等效于PE-WWV,這意味著它在理論上至少也可以執(zhí)行。經(jīng)過更深入的研究,我們發(fā)現(xiàn)PE-WWV傾向于學(xué)習(xí)比WWV相對(duì)更強(qiáng)的單詞權(quán)重,這反過來又允許它在不同關(guān)系的實(shí)體表示之間創(chuàng)建更大的可變性。因此,WWV似乎受到優(yōu)化算法的限制,而不是其理論性質(zhì)。
與基線相比,平均排名在大多數(shù)情況下都有所提高,而hits@10則顯示了Wordnet和Freebase之間的不同結(jié)果。對(duì)于Wordnet,與任何文本增強(qiáng)方法相比,基線在hits@10上的性能最好,這意味著此數(shù)據(jù)集中的文本可能并不十分指示關(guān)聯(lián)的實(shí)體。不過,對(duì)于Freebase來說,這些描述提供了顯著的好處,在大多數(shù)情況下,平均rank和命中率@10都提高了。
為了更好地理解這種行為,我們檢查了Wordnet測(cè)試三元組,這些三元組在基線上的排名明顯好于WWV-desc。我們觀察到,在許多情況下,相關(guān)實(shí)體由完全不同的文本描述。例如,一個(gè)這樣的三元組是(千字節(jié),有部分,字),其中主題和對(duì)象的Wordnet定義是“單位信息等于字節(jié)”和“存儲(chǔ)在計(jì)算機(jī)內(nèi)存中的字字符串位大型計(jì)算機(jī)使用字位長(zhǎng)”(省略了停止字)。
? ? ? ? ? ? ?
由于這些定義不包含常用詞,因此在WVdesc模型中,它們可能看起來不相關(guān)。相比之下,維基百科上關(guān)于千字節(jié)和單詞的摘要包含了諸如unit、digital和memory之類的常用關(guān)鍵字,這可能解釋了為什么WV-desc在Freebase上表現(xiàn)得更好。
為了進(jìn)一步驗(yàn)證這一假設(shè),我們計(jì)算了每個(gè)三元組中主語和賓語描述之間的平均常用詞數(shù)量。在Wordnet中,按基數(shù)排名的三元組平均包含0.67個(gè)常用詞,而按WV desc排名的三元組平均包含0.89個(gè)常用詞。相比之下,Freebase中的三元組平均包含20.0個(gè)常用單詞。因此,與Wordnet相比,word vectors方法需要更詳細(xì)的實(shí)體描述。
?
定性結(jié)果
?
為了更好地理解WWV模型是如何工作的,我們?cè)谟?xùn)練之后檢查哪些單詞被賦予了每個(gè)關(guān)系的最大權(quán)重。表3列出了使用TransE訓(xùn)練的Freebase中幾個(gè)關(guān)系ri的前10個(gè)單詞(從Bi中最強(qiáng)的權(quán)重中提取)。
我們觀察到,許多熱門詞匯在語義上與關(guān)系相似。例如,出生地關(guān)系傾向于強(qiáng)調(diào)屬于民族的詞語,而作為音樂團(tuán)體成員的關(guān)系則強(qiáng)調(diào)與樂器(如樂器、弦和鼓)有關(guān)的詞語。這表明,模型的功能正如我們的直覺所暗示的那樣,并用最能表明所討論的關(guān)系的詞語來表示實(shí)體。請(qǐng)注意,此表中單詞和關(guān)系之間的關(guān)聯(lián)是以完全無監(jiān)督的方式學(xué)習(xí)的,只提供文本和訓(xùn)練三元組。
? ? ? ? ? ?
特征和結(jié)果
?
在本節(jié)中,我們將FeatureSum模型與其他方法進(jìn)行比較,以合并來自非結(jié)構(gòu)化文本語料庫(kù)的信息。每個(gè)方法在定義實(shí)體向量的方式上都不同。WV name s模型應(yīng)用了[Socher等人,2013年](等式2)的WordVectors技術(shù),其中每個(gè)實(shí)體與其名稱的組成詞相關(guān)聯(lián)。此模型也不使用任何補(bǔ)充文本數(shù)據(jù),但可以在基線上進(jìn)行改進(jìn)。WV names init模型類似于WV names,但是每個(gè)wi都用word2vec vector初始化。該模型通過word2vec向量的訓(xùn)練合并了文本數(shù)據(jù),因此是FeatureSum模型的一個(gè)關(guān)鍵參考點(diǎn)。
????兩個(gè)數(shù)據(jù)集的結(jié)果見表5。注意,這些結(jié)果不能直接與表2進(jìn)行比較,因?yàn)檫@兩組實(shí)驗(yàn)使用不同的文本數(shù)據(jù)。應(yīng)該在同一個(gè)表中跨行進(jìn)行比較。在這樣做時(shí),Wordnet上的平均秩通常表明,僅對(duì)實(shí)體名稱應(yīng)用WV已經(jīng)給出了顯著的改進(jìn),而使用word2vec向量初始化則進(jìn)一步改進(jìn)了結(jié)果,如[Socher等人,2013]所建議的。對(duì)于hits@10,結(jié)果是好壞參半的,WVnames方法在某些情況下顯示出優(yōu)勢(shì),而在其他情況下則顯示出損失。
?
總結(jié)
本文討論了兩種利用文本數(shù)據(jù)信息擴(kuò)充知識(shí)圖中實(shí)體嵌入的新方法。第一種方法將實(shí)體向量表示為與每個(gè)實(shí)體相關(guān)聯(lián)的詞的直接函數(shù),并且在以實(shí)體描述的形式提供文本數(shù)據(jù)時(shí)適用。第二種方法在文本文檔上訓(xùn)練word2vec算法,并將它為實(shí)體名學(xué)習(xí)的特征添加到原始實(shí)體特征向量中。實(shí)驗(yàn)結(jié)果表明,如果文本數(shù)據(jù)具有足夠高的質(zhì)量,那么這兩種方法與無文本的嵌入方法和可供選擇的文本合并方法相比,可以提高許多不同嵌入模型的鏈接預(yù)測(cè)精度。
?
OpenKG
開放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 基于文本关联的知识图谱的无监督嵌入增强的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 图谱实战 | 基于半结构化百科的电影KG
- 下一篇: 论文浅尝 | GNN with Gene