论文浅尝 | 基于文本关联的知识图谱的无监督嵌入增强
來源:IJCAI2019
論文鏈接:?https://www.ijcai.org/proceedings/2019/0725.pdf
?
概述
知識圖譜嵌入是從多關(guān)系數(shù)據(jù)中提取數(shù)據(jù)的工具,最近的嵌入模型對從現(xiàn)有數(shù)據(jù)庫中推斷新事實具有很高的效率。然而,這種精確結(jié)構(gòu)的數(shù)據(jù)通常在數(shù)量和范圍上都是有限的。因此,要充分優(yōu)化嵌入,還必須考慮更廣泛可用的信息源(如文本)。本文描述了一種通過增加實體嵌入和關(guān)聯(lián)詞嵌入來整合文本信息的無監(jiān)督方法。該方法不修改知識圖譜嵌入的優(yōu)化目標,這允許它與已有的嵌入模型集成。同時考慮了兩種不同形式的文本數(shù)據(jù),并針對每種情況提出了不同的嵌入增強。在第一種情況下,每個實體都有一個描述它的關(guān)聯(lián)文本文檔。在第二種情況下,文本文檔不可用,相反,實體以單詞或短語的形式出現(xiàn)在非結(jié)構(gòu)化的文本片段語料庫中。實驗表明,這兩種方法在應(yīng)用于多種不同的知識圖嵌入模型時,都能有效地提高連接預測的性能。
?
模型和方法
?
嵌入增強方法
在本節(jié)中,作者將討論將文本數(shù)據(jù)合并到知識圖譜嵌入中的新方法。此附加信息允許培訓過程學習同時從知識庫和相關(guān)文本中反映事實的實體表示。根據(jù)可用文本數(shù)據(jù)的形式,我們考慮兩種不同的場景:在第一種場景中,每個實體都有一個與之相關(guān)的文檔來描述或定義實體;例如,歐洲的維基百科條目。這些數(shù)據(jù)可以從許多來源獲得,包括百科全書或字典。在第二個場景中,我們考慮一個非結(jié)構(gòu)化的語料庫,它不直接鏈接到任何實體,但包含在任意位置的實體。例如,一篇提到歐洲的新聞文章可能是這個語料庫的一部分。對本文的組織結(jié)構(gòu)沒有任何假設(shè),因此它通常可以是從多個文檔中收集的句子的集合。這兩種形式的數(shù)據(jù)之間的關(guān)鍵區(qū)別在于,在前者中,實體是文檔中所有單詞的基礎(chǔ)主題,而在后者中,實體只是包含未知主題的混合文檔中提到的對象。結(jié)果,第一種情況包含每個單詞以某種方式與已知實體相關(guān)的附加信息。對于第二種情況,我們只假設(shè)在相同上下文中出現(xiàn)的單詞之間存在關(guān)聯(lián)。這一區(qū)別如圖1所示。
? ? ? ? ? ??
1.1 實體描述的嵌入模型
?
在本節(jié)中,我們?yōu)閳D1中的第一個場景提供了一個模型,其中文本數(shù)據(jù)可用作實體描述。我們的方法基于[Socher等人,2013]的字向量模型,該模型將實體向量定義為實體名稱中字向量的平均值。首先,我們觀察到,該思想也可以應(yīng)用于實體描述,從而強制實體嵌入共享共同的文本特征,如屬性或關(guān)系詞。這將為語義上更相似的實體生成更相似的向量。然后,我們通過添加新參數(shù)來控制每個單詞對給定關(guān)系的實體組成的貢獻程度,從而改進了該模型。
我們首先對WordVectors模型進行形式化,我們已經(jīng)對其進行了調(diào)整,以適應(yīng)實體描述的情況。設(shè)文本(ei)=wi,1,wi,2。. . 是與實體ei相關(guān)聯(lián)的單詞序列。設(shè)W表示詞向量的nw×d矩陣,其中nw是詞匯表中的詞個數(shù),d是嵌入維數(shù)。讓Ai表示nw維向量,使得Aik是單詞wk在文本中出現(xiàn)的次數(shù)(ei)。然后,ei的嵌入向量可以表示為
? ? ? ? ? ??
上述等式的一個限制是描述中的所有單詞都被同等對待;通常情況下,某些單詞比其他單詞更適合預測關(guān)系。例如,樂器、鼓和職業(yè)等詞可能比其他詞(如女演員或星期六)更能反映音樂團體成員關(guān)系。因此,在預測音樂群體成員關(guān)系時,應(yīng)以樂器、鼓、職業(yè)等詞來表示一個實體。
另一方面,在預測教育等不同關(guān)系時,加拿大人、課程或常春藤等詞可能更具相關(guān)性,因此實體應(yīng)該更強烈地用這些詞來表示。這樣,包含“常春藤”一詞的實體向量在教育關(guān)系上比在音樂團體成員中更為相似。因此,這種模型可以預測兩個實體共享前一種關(guān)系,而不是后一種關(guān)系。
這種行為可以通過引入nr×nw矩陣B來實現(xiàn),使得Bjk表示單詞wk在預測關(guān)系rj中的重要性。然后我們可以定義實體ei在關(guān)系rj下的表示為
? ? ? ??
這里⊙表示元素相乘。這樣,單詞wk對實體向量的總權(quán)重是文本中wk的頻率(e i)(即Aik)和wk與ri的相關(guān)性(即Bjk)的組合。
然而,每個詞對于預測每一種關(guān)系的意義通常是未知的。因此,我們用B i j=1對所有i,j初始化B,并通過梯度下降來學習這些參數(shù)。如第4節(jié)所示,該程序能夠自動學習單詞與不同關(guān)系的關(guān)聯(lián),而無需任何監(jiān)督。
我們可以用公式3代替表1中的ei,將文本信息合并到任何知識圖嵌入模型中。例如,擴展的TranSE模型是
? ? ? ? ? ? ? ? ? ? ? ?
我們稱這種方法為加權(quán)詞向量(WWV)。
?
1.2 一種參數(shù)有效加權(quán)方案
?
如前一節(jié)所述,WWV模型的一個潛在缺點是矩陣B中的參數(shù)數(shù)目為nr×nw,這對于某些數(shù)據(jù)集來說可能是非常大的。這可以通過允許Bij從較少數(shù)量的參數(shù)派生而不是將每個參數(shù)定義為獨立的參數(shù)來改進。為此,我們引入nr×d矩陣P,并定義關(guān)系ri和單詞wj的權(quán)重如下:
? ? ? ? ? ? ? ? ? ? ??
公式4中Pi是單詞特征空間中關(guān)系ri的表示,與單詞向量Wj的特征空間相同。由于Pi和Wj使用相同的特征,PiWTj是ri和Wj之間相似性的度量,它充當它們之間的權(quán)重。例如,我們可能期望關(guān)系ri=音樂組成員的向量Pi與關(guān)系Wj=樂器的向量Wj相似,因為音樂組和樂器的概念在語義上是相關(guān)的。
雖然使用softmax函數(shù)定義權(quán)重Bij在概念上很有吸引力,但實際上不需要標準化因子,因為在等式3中所有權(quán)重都再次標準化。因此,我們可以將關(guān)系rj下的實體ei表示為:? ?
? ? ? ? ? ? ? ? ? ?
這里我們用展開形式表示了等式3的向量矩陣乘法,以便更清楚地顯示單詞的加權(quán)平均值。因此,可訓練參數(shù)的數(shù)目從nr×nw減少到nr×d。我們將等式5中的模型稱為參數(shù)有效加權(quán)詞向量(PE-WWV)。盡管參數(shù)較少,但第4節(jié)證明了PE-WWV在預測精度上與WWV相當。
?
1.3訓練過程
?
在訓練WWV和PE-WWV模型時,由于單詞嵌入?yún)?shù)W和權(quán)重B都必須在沒有監(jiān)督的情況下同時學習,因此產(chǎn)生了一個挑戰(zhàn)。也就是說,優(yōu)化器必須為每個關(guān)系發(fā)現(xiàn)最重要的詞,而不必對這些關(guān)系或詞進行任何理解或描述。由于初始隨機性,優(yōu)化器在訓練的早期階段可能會過分強調(diào)不相關(guān)的詞,然后永遠找不到好的解決方案。
我們發(fā)現(xiàn),在前50個訓練階段保持單詞權(quán)重(B和P)不變,可以大大緩解這個問題。這允許優(yōu)化器首先學習語義上有意義的單詞表示,而不會因為單詞權(quán)重的變化而中斷。然后,在剩余的訓練階段,我們優(yōu)化所有參數(shù),并能夠發(fā)現(xiàn)最相關(guān)的單詞。
?
1.4非結(jié)構(gòu)化語料庫的嵌入模型
?
在本節(jié)中,我們考慮圖1中的第二個場景。為了從非結(jié)構(gòu)化數(shù)據(jù)中獲取信息,我們在給定的語料庫上訓練word2vec模型[Mikolov等人,2013],以學習單詞的嵌入向量。Word2vec被訓練為將相似的向量分配給通常出現(xiàn)在相同上下文中的單詞,這使得它非常適合學習實體向量。例如,句子片段布賴恩瓊斯和他的吉他手基思理查茲開發(fā)了一個獨特的。。。很清楚地說明了布賴恩·瓊斯和基思·理查茲之間的關(guān)系。由于Brian Jones和Keith Richards在同一個上下文中以單詞的形式出現(xiàn),因此這些實體的word2vec向量將更類似于非結(jié)構(gòu)化語料庫的嵌入模型。
word2vec向量還可以捕獲顯示為屬性而不是句子對象的特征。在上面的例子中,這個句子還表示布賴恩·瓊斯和吉它之間的關(guān)聯(lián)。這對于預測布賴恩·瓊斯的其他關(guān)系類型(如樂器演奏或音樂團體成員)可能是一個有力的暗示。當給出這個訓練語句時,word2vec將學習在Brian Jones的向量中隱式地編碼該信息。這使得通過使用word2vec特征向量來增加實體嵌入中的信息成為可能。
整個模型的工作原理如下。讓wi表示實體ei的名稱的word2vec向量,讓ei表示實體向量。我們將實體ei的擴充向量定義為:
? ? ? ? ? ? ? ? ? ? ? ? ??
因此,ei中的每個潛在特征都包含原始實體向量和word2vec向量的貢獻。和方程式一樣。3和5,式6可應(yīng)用于任何知識圖嵌入模型,方法是將表1中的ei替換為?ei。
由于word2vec在知識圖嵌入過程中學習了一組不同的潛在特征,因此我們使用矩陣M將word2vec特征空間中的向量映射到實體特征空間。注意,與在SE、TRANSR和RESCAL模型(即R、R(1)和R(2))中操作實體的特定于關(guān)系的轉(zhuǎn)換不同,M是所有關(guān)系類型通用的全局矩陣。因此,向量wM包含的特征有助于預測三元組,但可以從文本中學習。我們將公式6稱為特征和模型。
特征和模型分三個階段進行訓練。首先,在語料庫上訓練word2vec獲得wi向量,然后兩個階段對排序損失目標進行優(yōu)化(方程1)。最初,M被設(shè)置為零并保持不變,而實體和關(guān)系參數(shù)E和R被優(yōu)化為100個階段。最后,包括M和wi在內(nèi)的所有參數(shù)在剩余的訓練期間一起訓練。
?
實驗
在本節(jié)中,我們評估了在Freebase[Bollacker等人,2008]和Wordnet[Miller,1995]的標準子集上提出的嵌入增強方法。我們將這些方法應(yīng)用于表1中的每個評分函數(shù),證明了它們增強現(xiàn)有嵌入模型的能力。我們首先將鏈路預測任務(wù)中的WWV和PE-WWV模型與包含實體描述的替代方法進行定量比較,然后定性地檢查WWV模型,以更好地了解其性能。接下來,我們將FeatureSum模型與使用非結(jié)構(gòu)化文本語料庫的替代方法進行比較。
?
WWV和PE-WWV結(jié)果
?
在本節(jié)中,我們將評估加權(quán)詞向量模型的兩個變體-WWV和PE-WWV。我們比較了合并格式化為實體描述的文本數(shù)據(jù)的替代方法,即WordVectors模型,但應(yīng)用于實體描述而不是名稱。我們把這個模型稱為WV-desc,我們還考慮了基線方法,稱為Base,其中實體向量簡單地隨機初始化和優(yōu)化,沒有附加文本。
表2給出了這兩個數(shù)據(jù)集的平均rank和命中率@10指標。考慮到WWV是WV的泛化,可以通過簡單地在公式2中為每個j,k設(shè)置Bjk=1來減少WWV的性能,我們期望WWV的性能應(yīng)該比WV-desc好。事實上,WWV在大多數(shù)情況下的平均秩和命中率都優(yōu)于WV-desc。
令人有些意外的是,PE-WWV模型的性能至少和WWV一樣好,在許多情況下甚至更好。有人可能會認為PE-WWV的性能會更差,因為它的表示容量不大于WWV。通過設(shè)置Bjk=exp(PjWTk),可以使WWV等效于PE-WWV,這意味著它在理論上至少也可以執(zhí)行。經(jīng)過更深入的研究,我們發(fā)現(xiàn)PE-WWV傾向于學習比WWV相對更強的單詞權(quán)重,這反過來又允許它在不同關(guān)系的實體表示之間創(chuàng)建更大的可變性。因此,WWV似乎受到優(yōu)化算法的限制,而不是其理論性質(zhì)。
與基線相比,平均排名在大多數(shù)情況下都有所提高,而hits@10則顯示了Wordnet和Freebase之間的不同結(jié)果。對于Wordnet,與任何文本增強方法相比,基線在hits@10上的性能最好,這意味著此數(shù)據(jù)集中的文本可能并不十分指示關(guān)聯(lián)的實體。不過,對于Freebase來說,這些描述提供了顯著的好處,在大多數(shù)情況下,平均rank和命中率@10都提高了。
為了更好地理解這種行為,我們檢查了Wordnet測試三元組,這些三元組在基線上的排名明顯好于WWV-desc。我們觀察到,在許多情況下,相關(guān)實體由完全不同的文本描述。例如,一個這樣的三元組是(千字節(jié),有部分,字),其中主題和對象的Wordnet定義是“單位信息等于字節(jié)”和“存儲在計算機內(nèi)存中的字字符串位大型計算機使用字位長”(省略了停止字)。
? ? ? ? ? ? ?
由于這些定義不包含常用詞,因此在WVdesc模型中,它們可能看起來不相關(guān)。相比之下,維基百科上關(guān)于千字節(jié)和單詞的摘要包含了諸如unit、digital和memory之類的常用關(guān)鍵字,這可能解釋了為什么WV-desc在Freebase上表現(xiàn)得更好。
為了進一步驗證這一假設(shè),我們計算了每個三元組中主語和賓語描述之間的平均常用詞數(shù)量。在Wordnet中,按基數(shù)排名的三元組平均包含0.67個常用詞,而按WV desc排名的三元組平均包含0.89個常用詞。相比之下,Freebase中的三元組平均包含20.0個常用單詞。因此,與Wordnet相比,word vectors方法需要更詳細的實體描述。
?
定性結(jié)果
?
為了更好地理解WWV模型是如何工作的,我們在訓練之后檢查哪些單詞被賦予了每個關(guān)系的最大權(quán)重。表3列出了使用TransE訓練的Freebase中幾個關(guān)系ri的前10個單詞(從Bi中最強的權(quán)重中提取)。
我們觀察到,許多熱門詞匯在語義上與關(guān)系相似。例如,出生地關(guān)系傾向于強調(diào)屬于民族的詞語,而作為音樂團體成員的關(guān)系則強調(diào)與樂器(如樂器、弦和鼓)有關(guān)的詞語。這表明,模型的功能正如我們的直覺所暗示的那樣,并用最能表明所討論的關(guān)系的詞語來表示實體。請注意,此表中單詞和關(guān)系之間的關(guān)聯(lián)是以完全無監(jiān)督的方式學習的,只提供文本和訓練三元組。
? ? ? ? ? ?
特征和結(jié)果
?
在本節(jié)中,我們將FeatureSum模型與其他方法進行比較,以合并來自非結(jié)構(gòu)化文本語料庫的信息。每個方法在定義實體向量的方式上都不同。WV name s模型應(yīng)用了[Socher等人,2013年](等式2)的WordVectors技術(shù),其中每個實體與其名稱的組成詞相關(guān)聯(lián)。此模型也不使用任何補充文本數(shù)據(jù),但可以在基線上進行改進。WV names init模型類似于WV names,但是每個wi都用word2vec vector初始化。該模型通過word2vec向量的訓練合并了文本數(shù)據(jù),因此是FeatureSum模型的一個關(guān)鍵參考點。
????兩個數(shù)據(jù)集的結(jié)果見表5。注意,這些結(jié)果不能直接與表2進行比較,因為這兩組實驗使用不同的文本數(shù)據(jù)。應(yīng)該在同一個表中跨行進行比較。在這樣做時,Wordnet上的平均秩通常表明,僅對實體名稱應(yīng)用WV已經(jīng)給出了顯著的改進,而使用word2vec向量初始化則進一步改進了結(jié)果,如[Socher等人,2013]所建議的。對于hits@10,結(jié)果是好壞參半的,WVnames方法在某些情況下顯示出優(yōu)勢,而在其他情況下則顯示出損失。
?
總結(jié)
本文討論了兩種利用文本數(shù)據(jù)信息擴充知識圖中實體嵌入的新方法。第一種方法將實體向量表示為與每個實體相關(guān)聯(lián)的詞的直接函數(shù),并且在以實體描述的形式提供文本數(shù)據(jù)時適用。第二種方法在文本文檔上訓練word2vec算法,并將它為實體名學習的特征添加到原始實體特征向量中。實驗結(jié)果表明,如果文本數(shù)據(jù)具有足夠高的質(zhì)量,那么這兩種方法與無文本的嵌入方法和可供選擇的文本合并方法相比,可以提高許多不同嵌入模型的鏈接預測精度。
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點擊閱讀原文,進入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 基于文本关联的知识图谱的无监督嵌入增强的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 图谱实战 | 基于半结构化百科的电影KG
- 下一篇: 论文浅尝 | GNN with Gene