论文浅尝 | Open world Knowledge Graph Completion
來(lái)源:AAAI2018
論文鏈接:https://arxiv.org/pdf/1711.03438.pdf
代碼鏈接:https://github.com/bxshi/ConMask
本文解決知識(shí)庫(kù)補(bǔ)全的問(wèn)題,但和傳統(tǒng)的 KGC 任務(wù)的場(chǎng)景有所不同。以往知識(shí)庫(kù)補(bǔ)全的前提是實(shí)體和關(guān)系都已經(jīng)在 KG 中存在,文中把那類情況定義為 Closed-World KGC。從其定義可以發(fā)現(xiàn)它是嚴(yán)重依賴已有KG連接的,不能對(duì)弱連接有好的預(yù)測(cè),并且無(wú)法處理從 KG 外部加入的新實(shí)體。對(duì)此這篇文章定義了 Open-World KGC,可以接收 KG 外部的實(shí)體并鏈接到 KG。論文提出的模型是 ConMask,ConMask 模型主要有三部分操作:
(1)??Relationship-dependent content masking:強(qiáng)調(diào)留下和任務(wù)相關(guān)的詞,抹去不相關(guān)的單詞; 模型采用attention機(jī)制基于相似度得到上下文的詞和給定關(guān)系的詞的權(quán)重矩陣,通過(guò)觀察發(fā)現(xiàn)目標(biāo)實(shí)體有時(shí)候在權(quán)重高的詞(indicator words)附近,提出 MCRW 考慮了上下文的權(quán)重求解方法。
(2)??Target fusion:從相關(guān)文本抽取目標(biāo)實(shí)體的 embedding(用FCN即全卷積神經(jīng)網(wǎng)絡(luò)的方法);這個(gè)部分輸入是masked content matrix,每層先有兩個(gè) 1-D 卷積操作,再是sigmoid激活函數(shù),然后是 batch normalization,最后是最大池化。
為避免參數(shù)過(guò)多,在得到實(shí)體名等文本特征時(shí)本文選用語(yǔ)義平均來(lái)得到特征的 embedding 表示
(3)??Target entity resolution:通過(guò)計(jì)算 KG 中候選目標(biāo)實(shí)體和抽取的實(shí)體的 embedding 間的相似性,結(jié)合其他文本特征得到一個(gè) ranked list。本文設(shè)計(jì)了一個(gè) list-wise ranking 損失函數(shù),采樣時(shí)按 50% 比例替換 head 和 tail 生成負(fù)樣本,S 函數(shù)時(shí) softmax 函數(shù)
論文的整體模型圖為:
本文在 DBPedia50k 和 DBPedia500k 數(shù)據(jù)集上取得較好的結(jié)果,同時(shí)作者還添加了 Closed-World KGC 的實(shí)驗(yàn),發(fā)現(xiàn)在 FB15k,以及前兩個(gè)數(shù)據(jù)集上效果也很不錯(cuò),證明了模型的有效性。
?
筆記整理:李娟,浙江大學(xué)博士在讀,研究興趣為知識(shí)圖譜,表示學(xué)習(xí)。
OpenKG.CN
中文開放知識(shí)圖譜(簡(jiǎn)稱OpenKG.CN)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。
轉(zhuǎn)載須知:轉(zhuǎn)載需注明來(lái)源“OpenKG.CN”、作者及原文鏈接。如需修改標(biāo)題,請(qǐng)注明原標(biāo)題。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | Open world Knowledge Graph Completion的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 自然语言处理系列篇——关键词智能提取
- 下一篇: 论文浅尝 | Improved Neur