论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法
來源: IJCAI2018
鏈接: https://www.ijcai.org/proceedings/2018/0556.pdf
動機
近年來,隨著多語言知識圖譜嵌入(Multilingual KG embedding)的研究,實體的潛在語義表示以及跨語言知識推理等任務均取得一定成效,因此也推動了許多知識驅動的跨語言工作。然而,受限于各語言知識圖譜之間較低的實體對齊(Entity alignment)程度,跨語言推理的準確性往往不夠令人滿意。
考慮到多語言知識圖譜中具有對實體的文字性描述,文章提出一種基于嵌入(Embedding)的策略:通過利用圖譜中實體的文字描述,對僅包含弱對齊(KG中的inter-language links,ILLs)的多語圖譜做半監督的跨語言知識推理。
為了有效利用圖譜知識以及實體的文字描述,文章提出通過協同訓練(Co-train)兩個模塊從而構建模型KDCoE:多語言知識嵌入模塊;多語言實體描述嵌入模塊。
貢獻
文章的貢獻有:
(1)提出了一種半監督學習方法KDCoE,協同訓練了多語知識圖譜嵌入和多語實體描述嵌入用于跨語言知識對齊;
(2)證明KDCoE在Zero-shot實體對齊以及跨語言知識圖譜補全(Cross-lingual KG Completion)任務上的有效性;
方法
1.?????多語言知識圖譜嵌入Monolingual KG Embeddings, KGEM
由知識模型(Knowledge Model)和對齊模型(Alignment Model)兩個部分構成,分別從不同角度學習結構化知識。
知識模型:用于保留各語言知識嵌入空間中的實體和關系
文章采用了傳統的TransE方法構建知識模型,并認為這種方法有利于在跨語言任務重中保持實體表示的統一性,且不會受到不同關系上下文帶來的影響。其對應的目標損失函數如下:
其中,L表示某種語言,(Li,Lj)表示一組語言對,GL 表示語言 L 對應的知識圖譜, 反映的是圖譜中三元組 (h,r,t) 之間的相異度,是一個 positive margin,[x]+ 則表示取 x 的正值部分, 表示一組伯努利負采樣三元組,用于替換圖譜三元組中的 h 和 t.
對齊模型:用于在不同語言的嵌入空間中獲取跨語言關聯
為了將不同語言間的知識關聯起來,文章參照MTransE中的線性轉換策略,其目標函數如下:
其中(e, e')是一組已知的對齊實體,當知識嵌入向量的維度為 k1 時,Mij 是一個 的線性轉換矩陣,用于將 Li 語言的實體向量轉換為 Lj 語言。這里與 MTransE 方法不同的是,文章僅計算了跨語言實體嵌入而非三元組整體嵌入。
KGEM的目標函數:
其中,是一個正超參數
2.?????多語言實體描述嵌入 Multilingual Entity Description Embeddings, DEM
DEM過程包含兩個部分:編碼和跨語言嵌入
1) 編碼:
文章使用 Attentive Gated Recurrent Unit encoder, AGRU 對多語言實體描述進行編碼,可以理解為帶有 self-attention 的 GRU 循環網絡編碼器。
文章希望利用self-attention機制使得編碼器能夠凸顯實體描述句子中的關鍵信息,AGRU中的self-attention可以定義為以下公式:
其中,ut 是由 GRU 中 st 產生的隱藏表示,attention 權值 at 則是由一個 softmax 函數計算得到,反映的是單詞 xt 對于序列 X 的重要性,而后依據此權重與隱藏表示可以得到 self-attention 的輸出 vt,|X|(輸入序列的長度)用于防止 vt 失去原有的規模。
在這個部分,作者也嘗試了其他的編碼框架,包括單層網絡,CNN,ALSTM等等,但AGRU取得了最好的性能
2) 跨語言嵌入部分:
為了更好的反映出多語言實體描述的詞級別語義信息,文章使用跨語言詞嵌入方法用于衡量和找出不同語言間的相似詞匯。大致流程可描述如下:
首先,使用跨語言平行語料Europarl V7以及Wikipedia中的單語語料,對cross-lingualBilbowa [Gouws et al., 2015] word embeddings進行預訓練。
而后使用上述embeddings將實體描述文本轉換為向量序列,再輸入進編碼器中。
3) DEM學習目標:
文章建立的編碼器由兩個堆疊的AGRU層構成,用于建模兩種語言的實體描述。該編碼器將實體描述序列作為輸入,而后由第二層輸出生成的embedding。
而后,文章引入了一個affine層,將上述各種語言的embedding結果投影到一個通用空間中,其投影過程由以下公式描述:
DEM 的目標是最大化各個實體描述 embedding 與對應的其他語言版本之間的 log 相似度,故可以將目標函數描述如下:
3.?????迭代 Co-training 的 KDCoE 模型
文章利用 KG 中存在的少量 ILLs 通過迭代的協同過程訓練 KGEM 和 DEM 兩個模塊,過程大致描述如下:
每次迭代中,各模塊都進行一系列“訓練-生成”的過程:
1) 首先利用已有的ILLs對模型進行訓練;
2) 之后利用訓練得到的模型從KG中預測得到以前未出現過的新ILLs;
3) 而后將這些結果整合到已有ILLs中,作為下一輪迭代的訓練數據;
4) 判斷是否滿足終止條件:本輪迭代中各模塊不再生成新的ILLs
其算法細節描述如下圖:
實驗
⑴. 實驗相關細節
實驗數據說明:
文章實驗數據來自DBPedia中抽取的子集WK3160k,由英法德三語構成,其中每種語言數據中包含了54k-65k規模的實體
具體統計信息如下表:
文章分別在跨語言實體對齊,Zero-shot對齊以及跨語言知識圖譜補全等三個任務上進行實驗
其中,跨語言實體對齊選用的基線系統包括:LM,CCA,OT,ITransE以及MTransE的三種策略;
Zero-shot對齊的基線系統為:Single-layer 網絡,CNN,GRU,AGRU 的兩種策略;
知識圖譜補全的基線系統為TransE
?
⑵. 實驗結果
????? 跨語言實體對齊:
如下圖所示,文章設置了三組評價指標,分別為:accuracy Hit@1;proportion of ranks no larger than 10 Hit@10;mean reciprocal rank MRR
從結果上看,KDCoE模型的性能遠優于其他系統,且隨著Co-train的迭代次數增加,系統的性能也都有較為明顯的提升。
?
Zero-shot對齊:
Zero-shot采用的評價指標與跨語言實體對齊相同,下圖反映了KDCoE在Zero-shot對齊任務中的實驗結果:
從實驗結果上看,KDCoE 的效果依然是隨著迭代次數的增加而上升,但從第一次迭代的結果可以發現,其優勢的來源基礎是 AGRU。這也反映出 AGRU 在編碼上相對其他網絡模型體現出了更優性能。
?
跨語言知識補全:
在跨語言知識補全任務中,文章采用proportion of ranks no larger than 10 Hit@10;mean reciprocal rank MRR等兩個評價指標
?
根據 KDCoE-mono 的表現,可以推斷,該模型成功繼承了 TranE 保持結構化知識中實體和關系的穩定性。而 KDCoE-corss 則反映引入跨語言信息確實對知識補全的效果起到了明顯提升。
總結
本文提出了一種基于 embedding 技術的跨語言知識對齊方法,通過引入 Co-train 機制,將 KG 中的關系上下文與實體描述信息有效的利用起來,以現有 KG 中的小規模 ILLs 為基礎建立半監督機制,在跨語言實體對齊,知識補全上都起到了明顯的效果。
?
論文筆記整理:譚亦鳴,東南大學博士,研究方向為知識圖譜問答、自然語言處理。
?
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python快速找到列表中所有重复的元素
- 下一篇: ImportError: libgthr