如何将原图和json融合_双曲知识嵌入:如何将知识“融合”带入新空间?
知識(shí)圖譜作為人類知識(shí)的結(jié)構(gòu)化數(shù)據(jù),是構(gòu)建人工智能的基石。然而目前的知識(shí)圖譜都是不完備的,所以需要將多個(gè)知識(shí)圖譜融合以獲得更完備的知識(shí)庫(kù)?;诒硎緦W(xué)習(xí)的知識(shí)關(guān)聯(lián)作為知識(shí)圖譜融合的新方法受到了許多關(guān)注。但知識(shí)關(guān)聯(lián)模型面臨著參數(shù)多、復(fù)雜性高、知識(shí)圖譜維數(shù)不一致等問(wèn)題。如何解決這些問(wèn)題呢?
本期AI TIME PhD直播間,我們邀請(qǐng)到了南京大學(xué)計(jì)算機(jī)系博士研究生孫澤群分享他的觀點(diǎn)。他提出將知識(shí)圖譜的表示空間從歐式空間轉(zhuǎn)換為雙曲空間,提出了基于雙曲空間的知識(shí)關(guān)聯(lián)方法。
孫澤群:南京大學(xué)計(jì)算機(jī)系博士研究生,導(dǎo)師是瞿裕忠教授和胡偉副教授。主要研究方向?yàn)橹R(shí)圖譜表示學(xué)習(xí)及其應(yīng)用,如實(shí)體對(duì)齊、鏈接預(yù)測(cè)和類型推斷等。目前在相關(guān)領(lǐng)域的國(guó)際會(huì)議如VLDB、ICML、AAAI、IJCAI、EMNLP、ISWC等發(fā)表多篇論文。一、背景
1. 什么是知識(shí)圖譜?
知識(shí)圖譜通過(guò)多關(guān)系圖的結(jié)構(gòu)來(lái)存儲(chǔ)和表示現(xiàn)實(shí)世界的事實(shí)或知識(shí)。如圖1所示,圖的節(jié)點(diǎn)代表實(shí)體或概念,而節(jié)點(diǎn)之間的有向邊帶有標(biāo)簽來(lái)說(shuō)明邊的具體類型(也稱為關(guān)系)。知識(shí)圖譜分為實(shí)體知識(shí)圖譜和概念知識(shí)圖譜(本體)。實(shí)體圖譜存儲(chǔ)不同實(shí)體(或者叫實(shí)例)之間的關(guān)系,下圖右邊展示了一個(gè)例子,即實(shí)體Bob對(duì)實(shí)體蒙娜麗莎很感興趣。而概念圖譜則刻畫了不同概念之間的關(guān)系,比如歌手屬于藝術(shù)家。
圖1:實(shí)體圖譜和概念圖譜2. 為何要做知識(shí)關(guān)聯(lián)?
知識(shí)圖譜大多由人工構(gòu)建,或者是對(duì)非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行信息抽取而構(gòu)建的,由于數(shù)據(jù)來(lái)源的不完備性,知識(shí)圖譜也是不完備的。比如,百度百科和維基百科會(huì)有重合的部分,也會(huì)有互補(bǔ)的部分,二者融合起來(lái)可以提供更加全面的知識(shí)。通過(guò)挖掘知識(shí)圖譜之間的一些關(guān)聯(lián)信息,將多個(gè)知識(shí)圖譜融合在一起,就是知識(shí)關(guān)聯(lián)。
3. 如何實(shí)現(xiàn)知識(shí)關(guān)聯(lián)?
知識(shí)關(guān)聯(lián)包括兩個(gè)任務(wù),即實(shí)體對(duì)齊(entity alignment)和類型推斷(type inference)。實(shí)體對(duì)齊旨在將兩個(gè)實(shí)體圖譜中共指的實(shí)體連接起來(lái)(圖2中雙虛線)。類型推斷則是關(guān)聯(lián)實(shí)體圖譜和概念圖譜,挖掘?qū)嶓w到其所屬概念之間的關(guān)聯(lián)(圖2中虛線)。
圖2:實(shí)體對(duì)齊和類型推斷二、知識(shí)關(guān)聯(lián)模型
如圖3所示,為了實(shí)現(xiàn)知識(shí)關(guān)聯(lián),首先需要進(jìn)行表示學(xué)習(xí)(embedding learning),將知識(shí)圖譜嵌入到向量空間中,之后再進(jìn)行關(guān)聯(lián)學(xué)習(xí)(association learning),實(shí)現(xiàn)上面提到的實(shí)體對(duì)齊或類型推斷任務(wù)。
圖3:嵌入學(xué)習(xí)和關(guān)聯(lián)學(xué)習(xí)1.表示學(xué)習(xí)(Embedding learning)
Embedding方法的關(guān)鍵就是表示學(xué)習(xí),將每個(gè)實(shí)體用低維向量表示。知識(shí)圖譜表示學(xué)習(xí)大致可以分為兩大類方法,一類基于圖結(jié)構(gòu)和關(guān)系,另一類還會(huì)利用一些額外信息,如實(shí)體屬性等。TransE作為一個(gè)經(jīng)典的知識(shí)圖譜嵌入模型,其核心思想就是讓有相同關(guān)系的實(shí)體對(duì)的向量偏移盡可能相同。比如,要表示中國(guó)首都是北京,那么需要讓“中國(guó)”向量加上“首都”向量近似等于“北京”向量。
圖4:TransE模型圖神經(jīng)網(wǎng)絡(luò)由于其強(qiáng)大的表示學(xué)習(xí)能力,近些年被廣泛使用。GCN是一個(gè)比較經(jīng)典的圖神經(jīng)網(wǎng)絡(luò)模型。GCN有兩部分操作,首先進(jìn)行鄰居聚合(neighborhood aggregation),將節(jié)點(diǎn)i的鄰居進(jìn)行聚合得到鄰居表示。之后再將鄰居表示和節(jié)點(diǎn)i自身的表示組合起來(lái),得到節(jié)點(diǎn)i在這一層的最終表示。但是GCN沒(méi)有考慮圖中邊的方向與類型,只要兩個(gè)節(jié)點(diǎn)之間有邊,那么它們就是鄰居,而不區(qū)分中心節(jié)點(diǎn)與鄰居的具體關(guān)系。R-GCN針對(duì)這個(gè)問(wèn)題做了改進(jìn),R-GCN考慮節(jié)點(diǎn)之間的關(guān)系,對(duì)于每一個(gè)關(guān)系做一個(gè)鄰居聚合,最后把這些鄰居表示再組合起來(lái)。比如一個(gè)知識(shí)圖譜圖有k個(gè)關(guān)系,R-GCN的聚合方式類似于把這個(gè)圖譜按照關(guān)系拆成了 k個(gè)無(wú)向的或者說(shuō)是不帶類型的圖,分別聚合,最后再組合起來(lái),但是這樣做復(fù)雜度很高。
圖5:圖神經(jīng)網(wǎng)絡(luò)模型2.關(guān)聯(lián)學(xué)習(xí)(Association learning)
關(guān)聯(lián)學(xué)習(xí)的方法則是通過(guò)監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí)完成的。監(jiān)督學(xué)習(xí)需要已知部分關(guān)聯(lián)數(shù)據(jù)比如部分實(shí)體對(duì)齊數(shù)據(jù)作為training data,目標(biāo)是找出剩下的關(guān)聯(lián)部分。但在現(xiàn)實(shí)場(chǎng)景中,關(guān)聯(lián)學(xué)習(xí)中的監(jiān)督數(shù)據(jù)卻很少,有相關(guān)工作做過(guò)統(tǒng)計(jì),在跨語(yǔ)言的維基百科中,只有10%~20%的共指頁(yè)面有l(wèi)ink。由于監(jiān)督數(shù)據(jù)太少,半監(jiān)督學(xué)習(xí)被引入來(lái)解決這個(gè)問(wèn)題。
關(guān)聯(lián)學(xué)習(xí)首先要度量節(jié)點(diǎn)之間的距離,比如實(shí)體x與實(shí)體y的距離。余弦相似度和歐式距離等都可以用來(lái)度量節(jié)點(diǎn)之間距離。之后如果要做實(shí)體對(duì)齊(類型關(guān)聯(lián)同理),一個(gè)比較簡(jiǎn)單的方法就是最小化x和y間的距離。學(xué)習(xí)的時(shí)候?yàn)榱藚^(qū)分對(duì)齊的正樣本和不對(duì)齊的負(fù)樣本,可以使用marginal rank loss或者limit-based loss。Marginal rank loss主要是讓正樣本和負(fù)樣本之間有一定的距離,卻無(wú)法控制距離的取值范圍。而limit-based loss則可以控制距離的取值范圍。
圖6:關(guān)聯(lián)學(xué)習(xí)3.面臨的挑戰(zhàn)
有些知識(shí)圖譜,尤其是概念圖譜,具有很多層次化結(jié)構(gòu)。在進(jìn)行表示學(xué)習(xí)的時(shí)候,為了捕捉復(fù)雜或很深的層級(jí)結(jié)構(gòu),往往需要一個(gè)更大的空間和更高的維度來(lái)表示節(jié)點(diǎn)。此外,與實(shí)體對(duì)齊不同,類型推斷處理的對(duì)象是實(shí)體圖譜與概念圖譜,由于實(shí)體數(shù)量遠(yuǎn)大于概念數(shù)量,這兩個(gè)知識(shí)圖譜的向量表示維數(shù)往往相差較大,基于距離最小化的方法不能適用于這種情況。
圖7:面臨的挑戰(zhàn)三、基于雙曲空間的知識(shí)關(guān)聯(lián)
面對(duì)上述挑戰(zhàn),講者提出在雙曲空間進(jìn)行知識(shí)圖譜表示學(xué)習(xí)。首先,雙曲空間具有表達(dá)層次結(jié)構(gòu)的能力,有利于表示知識(shí)圖譜尤其是本體中的層次化結(jié)構(gòu)。其次,雙曲空間的容量要遠(yuǎn)遠(yuǎn)大于歐式空間,所以在雙曲空間可以利用更少的維度來(lái)實(shí)現(xiàn)具有高維歐式空間同等表現(xiàn)力的模型。雙曲空間的特性使我們能夠使用很小的維數(shù)來(lái)捕捉知識(shí)圖譜的結(jié)構(gòu),并且特別適合有層次結(jié)構(gòu)的知識(shí)圖譜。此外,現(xiàn)有的歐式空間模型都可以通過(guò)一些基本算子的轉(zhuǎn)換變?yōu)殡p曲空間下表示的模型。
圖8:雙曲空間特性知識(shí)關(guān)聯(lián)方法包括表示學(xué)習(xí)和關(guān)聯(lián)學(xué)習(xí)兩個(gè)部分。其中表示學(xué)習(xí)結(jié)合了TransE與GCN的思想,先在輸入層用雙曲TransE做一個(gè)關(guān)系轉(zhuǎn)換,即頭實(shí)體+關(guān)系等于尾實(shí)體,之后再用雙曲GCN在輸入層上做鄰居聚合得到實(shí)體表示。這樣比起R-GCN就簡(jiǎn)單了很多,不需要根據(jù)不同的關(guān)系進(jìn)行單獨(dú)聚合。
圖9:HyperKA模型的嵌入學(xué)習(xí)得到知識(shí)圖譜的雙曲表示后,將其作為知識(shí)關(guān)聯(lián)的輸入。在做關(guān)聯(lián)時(shí),尤其是類型推斷,兩個(gè)知識(shí)圖譜可能結(jié)構(gòu)不同或者維度不同,不能強(qiáng)行最小化距離來(lái)擬合。所以就使用投影的方法,將節(jié)點(diǎn)從源空間映射到目標(biāo)空間,去匹配對(duì)應(yīng)的實(shí)體或者概念。
圖10:HyperKA模型的關(guān)聯(lián)學(xué)習(xí)四、實(shí)驗(yàn)結(jié)果
1. 實(shí)體對(duì)齊(Entity Alignment)
使用DBP15K數(shù)據(jù)集,以H@K和MRR為評(píng)價(jià)標(biāo)準(zhǔn),實(shí)驗(yàn)結(jié)果如下表:
表1:實(shí)體對(duì)齊實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)中,所提出的雙曲知識(shí)關(guān)聯(lián)模型HyperKA的維數(shù)為75,是所有模型中最小的。實(shí)驗(yàn)結(jié)果顯示,盡管HyperKA維數(shù)小,但它在三個(gè)數(shù)據(jù)集上的表現(xiàn)都優(yōu)于基線模型。
圖11:維數(shù)分析從上圖可以看出HyperKA只需要35維就能超過(guò)所有基線模型。隨著維數(shù)的減小,所需GPU的內(nèi)存開(kāi)銷和訓(xùn)練時(shí)間都會(huì)減小。所以HyperKA模型能在有限的GPU內(nèi)存開(kāi)銷下取得良好表現(xiàn)。
為了驗(yàn)證雙曲空間帶來(lái)的優(yōu)化,將HyperKA模型退回到歐氏空間中,得到HyperKA(Euc.)模型。從下表的實(shí)驗(yàn)結(jié)果可以看出,在歐式空間下需要高維度(如300)才能達(dá)到在雙曲空間下75維的表現(xiàn)。使用雙曲空間帶來(lái)了更小的內(nèi)存消耗和更少的模型參數(shù)。
表2:HyperKA (Euc.)模型實(shí)驗(yàn)結(jié)果2. 類型推斷(type inference)
使用YAGO26K-906和DB111K-174數(shù)據(jù)集,以H@K和MRR為評(píng)價(jià)標(biāo)準(zhǔn),實(shí)驗(yàn)結(jié)果如下表:
表3:類型推斷實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)結(jié)果表明在H@1和MRR的評(píng)價(jià)標(biāo)準(zhǔn)下,HyperKA(150,30)優(yōu)于其他模型。
HyperKA模型在實(shí)體關(guān)聯(lián)和類型推斷任務(wù)上都比絕大多數(shù)基線模型表現(xiàn)好,并且減少了模型的內(nèi)存開(kāi)銷也減短了訓(xùn)練時(shí)間。
Reference:
相關(guān)代碼及數(shù)據(jù)集:https://github.com/nju-websoft/HyperKA
論文:https://arxiv.org/pdf/2010.02162.pdf
整理:蔣予捷
排版:岳白雪
審稿:孫澤群
總結(jié)
以上是生活随笔為你收集整理的如何将原图和json融合_双曲知识嵌入:如何将知识“融合”带入新空间?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: iPhone如何更换浏览器搜索引擎iPh
- 下一篇: 工作流设置(用户自定义工作流)