當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

如何将原图和json融合_双曲知识嵌入：如何将知识“融合”带入新空间？

發(fā)布時(shí)間：2023/12/2 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了如何将原图和json融合_双曲知识嵌入：如何将知识“融合”带入新空间？小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

知識(shí)圖譜作為人類知識(shí)的結(jié)構(gòu)化數(shù)據(jù)，是構(gòu)建人工智能的基石。然而目前的知識(shí)圖譜都是不完備的，所以需要將多個(gè)知識(shí)圖譜融合以獲得更完備的知識(shí)庫(kù)?；诒硎緦W(xué)習(xí)的知識(shí)關(guān)聯(lián)作為知識(shí)圖譜融合的新方法受到了許多關(guān)注。但知識(shí)關(guān)聯(lián)模型面臨著參數(shù)多、復(fù)雜性高、知識(shí)圖譜維數(shù)不一致等問(wèn)題。如何解決這些問(wèn)題呢？

本期AI TIME PhD直播間，我們邀請(qǐng)到了南京大學(xué)計(jì)算機(jī)系博士研究生孫澤群分享他的觀點(diǎn)。他提出將知識(shí)圖譜的表示空間從歐式空間轉(zhuǎn)換為雙曲空間，提出了基于雙曲空間的知識(shí)關(guān)聯(lián)方法。

孫澤群：南京大學(xué)計(jì)算機(jī)系博士研究生，導(dǎo)師是瞿裕忠教授和胡偉副教授。主要研究方向?yàn)橹R(shí)圖譜表示學(xué)習(xí)及其應(yīng)用，如實(shí)體對(duì)齊、鏈接預(yù)測(cè)和類型推斷等。目前在相關(guān)領(lǐng)域的國(guó)際會(huì)議如VLDB、ICML、AAAI、IJCAI、EMNLP、ISWC等發(fā)表多篇論文。

一、背景

1. 什么是知識(shí)圖譜？

知識(shí)圖譜通過(guò)多關(guān)系圖的結(jié)構(gòu)來(lái)存儲(chǔ)和表示現(xiàn)實(shí)世界的事實(shí)或知識(shí)。如圖1所示，圖的節(jié)點(diǎn)代表實(shí)體或概念，而節(jié)點(diǎn)之間的有向邊帶有標(biāo)簽來(lái)說(shuō)明邊的具體類型（也稱為關(guān)系）。知識(shí)圖譜分為實(shí)體知識(shí)圖譜和概念知識(shí)圖譜（本體）。實(shí)體圖譜存儲(chǔ)不同實(shí)體（或者叫實(shí)例）之間的關(guān)系，下圖右邊展示了一個(gè)例子，即實(shí)體Bob對(duì)實(shí)體蒙娜麗莎很感興趣。而概念圖譜則刻畫了不同概念之間的關(guān)系，比如歌手屬于藝術(shù)家。

圖1：實(shí)體圖譜和概念圖譜

2. 為何要做知識(shí)關(guān)聯(lián)？

知識(shí)圖譜大多由人工構(gòu)建，或者是對(duì)非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行信息抽取而構(gòu)建的，由于數(shù)據(jù)來(lái)源的不完備性，知識(shí)圖譜也是不完備的。比如，百度百科和維基百科會(huì)有重合的部分，也會(huì)有互補(bǔ)的部分，二者融合起來(lái)可以提供更加全面的知識(shí)。通過(guò)挖掘知識(shí)圖譜之間的一些關(guān)聯(lián)信息，將多個(gè)知識(shí)圖譜融合在一起，就是知識(shí)關(guān)聯(lián)。

3. 如何實(shí)現(xiàn)知識(shí)關(guān)聯(lián)？

知識(shí)關(guān)聯(lián)包括兩個(gè)任務(wù)，即實(shí)體對(duì)齊（entity alignment）和類型推斷（type inference）。實(shí)體對(duì)齊旨在將兩個(gè)實(shí)體圖譜中共指的實(shí)體連接起來(lái)（圖2中雙虛線）。類型推斷則是關(guān)聯(lián)實(shí)體圖譜和概念圖譜，挖掘?qū)嶓w到其所屬概念之間的關(guān)聯(lián)（圖2中虛線）。

圖2：實(shí)體對(duì)齊和類型推斷

二、知識(shí)關(guān)聯(lián)模型

如圖3所示，為了實(shí)現(xiàn)知識(shí)關(guān)聯(lián)，首先需要進(jìn)行表示學(xué)習(xí)（embedding learning），將知識(shí)圖譜嵌入到向量空間中，之后再進(jìn)行關(guān)聯(lián)學(xué)習(xí)（association learning），實(shí)現(xiàn)上面提到的實(shí)體對(duì)齊或類型推斷任務(wù)。

圖3：嵌入學(xué)習(xí)和關(guān)聯(lián)學(xué)習(xí)

1.表示學(xué)習(xí)（Embedding learning）

Embedding方法的關(guān)鍵就是表示學(xué)習(xí)，將每個(gè)實(shí)體用低維向量表示。知識(shí)圖譜表示學(xué)習(xí)大致可以分為兩大類方法，一類基于圖結(jié)構(gòu)和關(guān)系，另一類還會(huì)利用一些額外信息，如實(shí)體屬性等。TransE作為一個(gè)經(jīng)典的知識(shí)圖譜嵌入模型，其核心思想就是讓有相同關(guān)系的實(shí)體對(duì)的向量偏移盡可能相同。比如，要表示中國(guó)首都是北京，那么需要讓“中國(guó)”向量加上“首都”向量近似等于“北京”向量。

圖4：TransE模型

圖神經(jīng)網(wǎng)絡(luò)由于其強(qiáng)大的表示學(xué)習(xí)能力，近些年被廣泛使用。GCN是一個(gè)比較經(jīng)典的圖神經(jīng)網(wǎng)絡(luò)模型。GCN有兩部分操作，首先進(jìn)行鄰居聚合（neighborhood aggregation），將節(jié)點(diǎn)i的鄰居進(jìn)行聚合得到鄰居表示。之后再將鄰居表示和節(jié)點(diǎn)i自身的表示組合起來(lái)，得到節(jié)點(diǎn)i在這一層的最終表示。但是GCN沒(méi)有考慮圖中邊的方向與類型，只要兩個(gè)節(jié)點(diǎn)之間有邊，那么它們就是鄰居，而不區(qū)分中心節(jié)點(diǎn)與鄰居的具體關(guān)系。R-GCN針對(duì)這個(gè)問(wèn)題做了改進(jìn)，R-GCN考慮節(jié)點(diǎn)之間的關(guān)系，對(duì)于每一個(gè)關(guān)系做一個(gè)鄰居聚合，最后把這些鄰居表示再組合起來(lái)。比如一個(gè)知識(shí)圖譜圖有k個(gè)關(guān)系，R-GCN的聚合方式類似于把這個(gè)圖譜按照關(guān)系拆成了 k個(gè)無(wú)向的或者說(shuō)是不帶類型的圖，分別聚合，最后再組合起來(lái)，但是這樣做復(fù)雜度很高。

圖5：圖神經(jīng)網(wǎng)絡(luò)模型

2.關(guān)聯(lián)學(xué)習(xí)（Association learning）

關(guān)聯(lián)學(xué)習(xí)的方法則是通過(guò)監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí)完成的。監(jiān)督學(xué)習(xí)需要已知部分關(guān)聯(lián)數(shù)據(jù)比如部分實(shí)體對(duì)齊數(shù)據(jù)作為training data，目標(biāo)是找出剩下的關(guān)聯(lián)部分。但在現(xiàn)實(shí)場(chǎng)景中，關(guān)聯(lián)學(xué)習(xí)中的監(jiān)督數(shù)據(jù)卻很少，有相關(guān)工作做過(guò)統(tǒng)計(jì)，在跨語(yǔ)言的維基百科中，只有10%~20%的共指頁(yè)面有l(wèi)ink。由于監(jiān)督數(shù)據(jù)太少，半監(jiān)督學(xué)習(xí)被引入來(lái)解決這個(gè)問(wèn)題。

關(guān)聯(lián)學(xué)習(xí)首先要度量節(jié)點(diǎn)之間的距離，比如實(shí)體x與實(shí)體y的距離。余弦相似度和歐式距離等都可以用來(lái)度量節(jié)點(diǎn)之間距離。之后如果要做實(shí)體對(duì)齊（類型關(guān)聯(lián)同理），一個(gè)比較簡(jiǎn)單的方法就是最小化x和y間的距離。學(xué)習(xí)的時(shí)候?yàn)榱藚^(qū)分對(duì)齊的正樣本和不對(duì)齊的負(fù)樣本，可以使用marginal rank loss或者limit-based loss。Marginal rank loss主要是讓正樣本和負(fù)樣本之間有一定的距離，卻無(wú)法控制距離的取值范圍。而limit-based loss則可以控制距離的取值范圍。

圖6：關(guān)聯(lián)學(xué)習(xí)

3.面臨的挑戰(zhàn)

有些知識(shí)圖譜，尤其是概念圖譜，具有很多層次化結(jié)構(gòu)。在進(jìn)行表示學(xué)習(xí)的時(shí)候，為了捕捉復(fù)雜或很深的層級(jí)結(jié)構(gòu)，往往需要一個(gè)更大的空間和更高的維度來(lái)表示節(jié)點(diǎn)。此外，與實(shí)體對(duì)齊不同，類型推斷處理的對(duì)象是實(shí)體圖譜與概念圖譜，由于實(shí)體數(shù)量遠(yuǎn)大于概念數(shù)量，這兩個(gè)知識(shí)圖譜的向量表示維數(shù)往往相差較大，基于距離最小化的方法不能適用于這種情況。

圖7：面臨的挑戰(zhàn)

三、基于雙曲空間的知識(shí)關(guān)聯(lián)

面對(duì)上述挑戰(zhàn)，講者提出在雙曲空間進(jìn)行知識(shí)圖譜表示學(xué)習(xí)。首先，雙曲空間具有表達(dá)層次結(jié)構(gòu)的能力，有利于表示知識(shí)圖譜尤其是本體中的層次化結(jié)構(gòu)。其次，雙曲空間的容量要遠(yuǎn)遠(yuǎn)大于歐式空間，所以在雙曲空間可以利用更少的維度來(lái)實(shí)現(xiàn)具有高維歐式空間同等表現(xiàn)力的模型。雙曲空間的特性使我們能夠使用很小的維數(shù)來(lái)捕捉知識(shí)圖譜的結(jié)構(gòu)，并且特別適合有層次結(jié)構(gòu)的知識(shí)圖譜。此外，現(xiàn)有的歐式空間模型都可以通過(guò)一些基本算子的轉(zhuǎn)換變?yōu)殡p曲空間下表示的模型。

圖8：雙曲空間特性

知識(shí)關(guān)聯(lián)方法包括表示學(xué)習(xí)和關(guān)聯(lián)學(xué)習(xí)兩個(gè)部分。其中表示學(xué)習(xí)結(jié)合了TransE與GCN的思想，先在輸入層用雙曲TransE做一個(gè)關(guān)系轉(zhuǎn)換，即頭實(shí)體+關(guān)系等于尾實(shí)體，之后再用雙曲GCN在輸入層上做鄰居聚合得到實(shí)體表示。這樣比起R-GCN就簡(jiǎn)單了很多，不需要根據(jù)不同的關(guān)系進(jìn)行單獨(dú)聚合。

圖9：HyperKA模型的嵌入學(xué)習(xí)

得到知識(shí)圖譜的雙曲表示后，將其作為知識(shí)關(guān)聯(lián)的輸入。在做關(guān)聯(lián)時(shí)，尤其是類型推斷，兩個(gè)知識(shí)圖譜可能結(jié)構(gòu)不同或者維度不同，不能強(qiáng)行最小化距離來(lái)擬合。所以就使用投影的方法，將節(jié)點(diǎn)從源空間映射到目標(biāo)空間，去匹配對(duì)應(yīng)的實(shí)體或者概念。

圖10：HyperKA模型的關(guān)聯(lián)學(xué)習(xí)

四、實(shí)驗(yàn)結(jié)果

1. 實(shí)體對(duì)齊（Entity Alignment）

使用DBP15K數(shù)據(jù)集，以H@K和MRR為評(píng)價(jià)標(biāo)準(zhǔn)，實(shí)驗(yàn)結(jié)果如下表：

表1：實(shí)體對(duì)齊實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)中，所提出的雙曲知識(shí)關(guān)聯(lián)模型HyperKA的維數(shù)為75，是所有模型中最小的。實(shí)驗(yàn)結(jié)果顯示，盡管HyperKA維數(shù)小，但它在三個(gè)數(shù)據(jù)集上的表現(xiàn)都優(yōu)于基線模型。

圖11：維數(shù)分析

從上圖可以看出HyperKA只需要35維就能超過(guò)所有基線模型。隨著維數(shù)的減小，所需GPU的內(nèi)存開(kāi)銷和訓(xùn)練時(shí)間都會(huì)減小。所以HyperKA模型能在有限的GPU內(nèi)存開(kāi)銷下取得良好表現(xiàn)。

為了驗(yàn)證雙曲空間帶來(lái)的優(yōu)化，將HyperKA模型退回到歐氏空間中，得到HyperKA(Euc.)模型。從下表的實(shí)驗(yàn)結(jié)果可以看出，在歐式空間下需要高維度（如300）才能達(dá)到在雙曲空間下75維的表現(xiàn)。使用雙曲空間帶來(lái)了更小的內(nèi)存消耗和更少的模型參數(shù)。

表2：HyperKA (Euc.)模型實(shí)驗(yàn)結(jié)果

2. 類型推斷（type inference）

使用YAGO26K-906和DB111K-174數(shù)據(jù)集，以H@K和MRR為評(píng)價(jià)標(biāo)準(zhǔn)，實(shí)驗(yàn)結(jié)果如下表：

表3：類型推斷實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果表明在H@1和MRR的評(píng)價(jià)標(biāo)準(zhǔn)下，HyperKA（150，30）優(yōu)于其他模型。

HyperKA模型在實(shí)體關(guān)聯(lián)和類型推斷任務(wù)上都比絕大多數(shù)基線模型表現(xiàn)好，并且減少了模型的內(nèi)存開(kāi)銷也減短了訓(xùn)練時(shí)間。

Reference：

相關(guān)代碼及數(shù)據(jù)集：https://github.com/nju-websoft/HyperKA

論文：https://arxiv.org/pdf/2010.02162.pdf

整理：蔣予捷
排版：岳白雪
審稿：孫澤群

總結(jié)

以上是生活随笔為你收集整理的如何将原图和json融合_双曲知识嵌入：如何将知识“融合”带入新空间？的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： iPhone如何更换浏览器搜索引擎iPh
下一篇：工作流设置(用户自定义工作流)