如何将原图和json融合_双曲知识嵌入:如何将知识“融合”带入新空间?
知識圖譜作為人類知識的結(jié)構(gòu)化數(shù)據(jù),是構(gòu)建人工智能的基石。然而目前的知識圖譜都是不完備的,所以需要將多個知識圖譜融合以獲得更完備的知識庫。基于表示學習的知識關(guān)聯(lián)作為知識圖譜融合的新方法受到了許多關(guān)注。但知識關(guān)聯(lián)模型面臨著參數(shù)多、復雜性高、知識圖譜維數(shù)不一致等問題。如何解決這些問題呢?
本期AI TIME PhD直播間,我們邀請到了南京大學計算機系博士研究生孫澤群分享他的觀點。他提出將知識圖譜的表示空間從歐式空間轉(zhuǎn)換為雙曲空間,提出了基于雙曲空間的知識關(guān)聯(lián)方法。
孫澤群:南京大學計算機系博士研究生,導師是瞿裕忠教授和胡偉副教授。主要研究方向為知識圖譜表示學習及其應用,如實體對齊、鏈接預測和類型推斷等。目前在相關(guān)領域的國際會議如VLDB、ICML、AAAI、IJCAI、EMNLP、ISWC等發(fā)表多篇論文。一、背景
1. 什么是知識圖譜?
知識圖譜通過多關(guān)系圖的結(jié)構(gòu)來存儲和表示現(xiàn)實世界的事實或知識。如圖1所示,圖的節(jié)點代表實體或概念,而節(jié)點之間的有向邊帶有標簽來說明邊的具體類型(也稱為關(guān)系)。知識圖譜分為實體知識圖譜和概念知識圖譜(本體)。實體圖譜存儲不同實體(或者叫實例)之間的關(guān)系,下圖右邊展示了一個例子,即實體Bob對實體蒙娜麗莎很感興趣。而概念圖譜則刻畫了不同概念之間的關(guān)系,比如歌手屬于藝術(shù)家。
圖1:實體圖譜和概念圖譜2. 為何要做知識關(guān)聯(lián)?
知識圖譜大多由人工構(gòu)建,或者是對非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進行信息抽取而構(gòu)建的,由于數(shù)據(jù)來源的不完備性,知識圖譜也是不完備的。比如,百度百科和維基百科會有重合的部分,也會有互補的部分,二者融合起來可以提供更加全面的知識。通過挖掘知識圖譜之間的一些關(guān)聯(lián)信息,將多個知識圖譜融合在一起,就是知識關(guān)聯(lián)。
3. 如何實現(xiàn)知識關(guān)聯(lián)?
知識關(guān)聯(lián)包括兩個任務,即實體對齊(entity alignment)和類型推斷(type inference)。實體對齊旨在將兩個實體圖譜中共指的實體連接起來(圖2中雙虛線)。類型推斷則是關(guān)聯(lián)實體圖譜和概念圖譜,挖掘?qū)嶓w到其所屬概念之間的關(guān)聯(lián)(圖2中虛線)。
圖2:實體對齊和類型推斷二、知識關(guān)聯(lián)模型
如圖3所示,為了實現(xiàn)知識關(guān)聯(lián),首先需要進行表示學習(embedding learning),將知識圖譜嵌入到向量空間中,之后再進行關(guān)聯(lián)學習(association learning),實現(xiàn)上面提到的實體對齊或類型推斷任務。
圖3:嵌入學習和關(guān)聯(lián)學習1.表示學習(Embedding learning)
Embedding方法的關(guān)鍵就是表示學習,將每個實體用低維向量表示。知識圖譜表示學習大致可以分為兩大類方法,一類基于圖結(jié)構(gòu)和關(guān)系,另一類還會利用一些額外信息,如實體屬性等。TransE作為一個經(jīng)典的知識圖譜嵌入模型,其核心思想就是讓有相同關(guān)系的實體對的向量偏移盡可能相同。比如,要表示中國首都是北京,那么需要讓“中國”向量加上“首都”向量近似等于“北京”向量。
圖4:TransE模型圖神經(jīng)網(wǎng)絡由于其強大的表示學習能力,近些年被廣泛使用。GCN是一個比較經(jīng)典的圖神經(jīng)網(wǎng)絡模型。GCN有兩部分操作,首先進行鄰居聚合(neighborhood aggregation),將節(jié)點i的鄰居進行聚合得到鄰居表示。之后再將鄰居表示和節(jié)點i自身的表示組合起來,得到節(jié)點i在這一層的最終表示。但是GCN沒有考慮圖中邊的方向與類型,只要兩個節(jié)點之間有邊,那么它們就是鄰居,而不區(qū)分中心節(jié)點與鄰居的具體關(guān)系。R-GCN針對這個問題做了改進,R-GCN考慮節(jié)點之間的關(guān)系,對于每一個關(guān)系做一個鄰居聚合,最后把這些鄰居表示再組合起來。比如一個知識圖譜圖有k個關(guān)系,R-GCN的聚合方式類似于把這個圖譜按照關(guān)系拆成了 k個無向的或者說是不帶類型的圖,分別聚合,最后再組合起來,但是這樣做復雜度很高。
圖5:圖神經(jīng)網(wǎng)絡模型2.關(guān)聯(lián)學習(Association learning)
關(guān)聯(lián)學習的方法則是通過監(jiān)督學習或半監(jiān)督學習完成的。監(jiān)督學習需要已知部分關(guān)聯(lián)數(shù)據(jù)比如部分實體對齊數(shù)據(jù)作為training data,目標是找出剩下的關(guān)聯(lián)部分。但在現(xiàn)實場景中,關(guān)聯(lián)學習中的監(jiān)督數(shù)據(jù)卻很少,有相關(guān)工作做過統(tǒng)計,在跨語言的維基百科中,只有10%~20%的共指頁面有l(wèi)ink。由于監(jiān)督數(shù)據(jù)太少,半監(jiān)督學習被引入來解決這個問題。
關(guān)聯(lián)學習首先要度量節(jié)點之間的距離,比如實體x與實體y的距離。余弦相似度和歐式距離等都可以用來度量節(jié)點之間距離。之后如果要做實體對齊(類型關(guān)聯(lián)同理),一個比較簡單的方法就是最小化x和y間的距離。學習的時候為了區(qū)分對齊的正樣本和不對齊的負樣本,可以使用marginal rank loss或者limit-based loss。Marginal rank loss主要是讓正樣本和負樣本之間有一定的距離,卻無法控制距離的取值范圍。而limit-based loss則可以控制距離的取值范圍。
圖6:關(guān)聯(lián)學習3.面臨的挑戰(zhàn)
有些知識圖譜,尤其是概念圖譜,具有很多層次化結(jié)構(gòu)。在進行表示學習的時候,為了捕捉復雜或很深的層級結(jié)構(gòu),往往需要一個更大的空間和更高的維度來表示節(jié)點。此外,與實體對齊不同,類型推斷處理的對象是實體圖譜與概念圖譜,由于實體數(shù)量遠大于概念數(shù)量,這兩個知識圖譜的向量表示維數(shù)往往相差較大,基于距離最小化的方法不能適用于這種情況。
圖7:面臨的挑戰(zhàn)三、基于雙曲空間的知識關(guān)聯(lián)
面對上述挑戰(zhàn),講者提出在雙曲空間進行知識圖譜表示學習。首先,雙曲空間具有表達層次結(jié)構(gòu)的能力,有利于表示知識圖譜尤其是本體中的層次化結(jié)構(gòu)。其次,雙曲空間的容量要遠遠大于歐式空間,所以在雙曲空間可以利用更少的維度來實現(xiàn)具有高維歐式空間同等表現(xiàn)力的模型。雙曲空間的特性使我們能夠使用很小的維數(shù)來捕捉知識圖譜的結(jié)構(gòu),并且特別適合有層次結(jié)構(gòu)的知識圖譜。此外,現(xiàn)有的歐式空間模型都可以通過一些基本算子的轉(zhuǎn)換變?yōu)殡p曲空間下表示的模型。
圖8:雙曲空間特性知識關(guān)聯(lián)方法包括表示學習和關(guān)聯(lián)學習兩個部分。其中表示學習結(jié)合了TransE與GCN的思想,先在輸入層用雙曲TransE做一個關(guān)系轉(zhuǎn)換,即頭實體+關(guān)系等于尾實體,之后再用雙曲GCN在輸入層上做鄰居聚合得到實體表示。這樣比起R-GCN就簡單了很多,不需要根據(jù)不同的關(guān)系進行單獨聚合。
圖9:HyperKA模型的嵌入學習得到知識圖譜的雙曲表示后,將其作為知識關(guān)聯(lián)的輸入。在做關(guān)聯(lián)時,尤其是類型推斷,兩個知識圖譜可能結(jié)構(gòu)不同或者維度不同,不能強行最小化距離來擬合。所以就使用投影的方法,將節(jié)點從源空間映射到目標空間,去匹配對應的實體或者概念。
圖10:HyperKA模型的關(guān)聯(lián)學習四、實驗結(jié)果
1. 實體對齊(Entity Alignment)
使用DBP15K數(shù)據(jù)集,以H@K和MRR為評價標準,實驗結(jié)果如下表:
表1:實體對齊實驗結(jié)果實驗中,所提出的雙曲知識關(guān)聯(lián)模型HyperKA的維數(shù)為75,是所有模型中最小的。實驗結(jié)果顯示,盡管HyperKA維數(shù)小,但它在三個數(shù)據(jù)集上的表現(xiàn)都優(yōu)于基線模型。
圖11:維數(shù)分析從上圖可以看出HyperKA只需要35維就能超過所有基線模型。隨著維數(shù)的減小,所需GPU的內(nèi)存開銷和訓練時間都會減小。所以HyperKA模型能在有限的GPU內(nèi)存開銷下取得良好表現(xiàn)。
為了驗證雙曲空間帶來的優(yōu)化,將HyperKA模型退回到歐氏空間中,得到HyperKA(Euc.)模型。從下表的實驗結(jié)果可以看出,在歐式空間下需要高維度(如300)才能達到在雙曲空間下75維的表現(xiàn)。使用雙曲空間帶來了更小的內(nèi)存消耗和更少的模型參數(shù)。
表2:HyperKA (Euc.)模型實驗結(jié)果2. 類型推斷(type inference)
使用YAGO26K-906和DB111K-174數(shù)據(jù)集,以H@K和MRR為評價標準,實驗結(jié)果如下表:
表3:類型推斷實驗結(jié)果實驗結(jié)果表明在H@1和MRR的評價標準下,HyperKA(150,30)優(yōu)于其他模型。
HyperKA模型在實體關(guān)聯(lián)和類型推斷任務上都比絕大多數(shù)基線模型表現(xiàn)好,并且減少了模型的內(nèi)存開銷也減短了訓練時間。
Reference:
相關(guān)代碼及數(shù)據(jù)集:https://github.com/nju-websoft/HyperKA
論文:https://arxiv.org/pdf/2010.02162.pdf
整理:蔣予捷
排版:岳白雪
審稿:孫澤群
總結(jié)
以上是生活随笔為你收集整理的如何将原图和json融合_双曲知识嵌入:如何将知识“融合”带入新空间?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: iPhone如何更换浏览器搜索引擎iPh
- 下一篇: 客制化键盘编程_客制化键盘劝退指南