日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

發布時間:2024/7/5 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文轉載自公眾號:PaperWeekly。作者:王文博,哈爾濱工程大學碩士生,研究方向為知識圖譜、表示學習。


動機

在本篇文章之前,跨語言知識圖譜對齊研究僅依賴于從單語知識圖譜結構信息中獲得的實體嵌入向量。并且大多數研究將實體映射到低維空間中,用低維向量對多語言知識圖譜中的實體進行編碼。并學習相似得分函數,根據實體映射后的低維向量表示對其進行匹配。但是又由于一些實體在不同的語言中具有不同的三元組事實,實體嵌入中編碼的信息可能在不同的語言中是不同的,這使得基于傳統思想的方法很可能無法完成這類實體的匹配任務。

除此之外,傳統方法也沒有將實體的表面結構信息編碼到嵌入向量中,使得具有少量鄰居的實體由于缺乏足夠的結構化信息而無法匹配。故本文提出一種新穎的圖匹配方法,通過兩次運用圖卷積神經網絡(GCN)分別解決構建主題實體圖時相鄰實體間信息傳遞的問題,與構建全圖表示向量時局部信息的傳遞問題,十分出色地完成了知識圖譜中實體對齊的問題。

本文創新點如下:

  • 引入主題實體圖,即指實體的局部子圖,用來表示實體與其對應的上下文信息。

  • 將知識圖譜中實體對齊問題轉化為圖匹配問題。進一步提出了一種基于圖注意的解決方案,該方案首先匹配兩個主題實體圖中的所有實體,然后對局部匹配信息進行聯合建模,得到圖級匹配向量。

主題實體圖

由于知識圖譜中實體的上下文信息對于知識圖譜對齊任務十分重要,在本文模型中引入主題實體圖的結構,用來表示知識圖譜中給定實體(話題實體)與它的鄰居之間的關系。圖二為主題圖的樣例。為了構建主題圖,先建立與主題實體一跳相鄰的鄰居實體集合,用表示。然后從這個集合中任意選取兩個實體對,若這個實體對在知識圖譜中存在關系使其直接相連,則在主題實體圖中為這個實體對保留直接相連的有向邊。

注:在主題實體圖中只保留邊的方向,不包含邊對應的關系的具體信息。只有這樣才可以使得模型具有較高的效率和較好的表現結果。

?

圖匹配模型

圖 2 給出了本文模型在對齊英文知識圖譜與中文知識圖譜中實體 LebronJames 的大體過程。首先分別構建出在兩個知識圖譜中的主題實體圖分別為 G1 和 C2。然后用提出的圖匹配模型去評估兩個主題實體圖是在描述同一個主題實體的可能性。匹配模型具體包含以下三層:

輸入表示層:這層的目的是通過 GCN 學習出現在主題實體圖中的實體嵌入向量。以生成實體 v 的嵌入向量為例,具體步驟如下:

1. 首先用一個基于單詞的 LSTM 將圖中所有實體從名字轉化成向量,進行初始化。并用符號表示實體 v 的初始化嵌入向量。

2. 對實體 v?的鄰居實體進行分類,若該鄰居實體通過指向實體 v?的邊與 v?相連,則該實體屬于集合,若該實體通過指向自己的邊與實體 v?相連,則該實體屬于集合。

3. 通過運用一個聚合器,將指向實體 v?的所有鄰居節點的表示轉化成一個單獨的向量,其中 k 是迭代值。該聚合器將與節點 v 直接相鄰的所有節點的向量表示,作為一個全連接層神經網絡的輸入,并運用一個均值池化操作來捕捉鄰居集合中的不同方面特征,得到向量。

4. 將 k-1?輪得到的指向實體 v?的鄰居集合的表示與新產生的進行連接,并將連接后的向量放入全連接網絡去更新指向實體 v?的鄰居集合的表示,得到。

5. 用與步驟(3)步驟(4)相同的方法在由實體 v?指出的鄰居集合中更新由實體 v?指出的鄰居集合的表示。

6. 重復步驟(3)-步驟(5)K 次,將最終的指向實體 v 的鄰居集合的表示與由實體 v 指出的鄰居集合的表示進行連接,作為單個實體的嵌入向量。最終得到兩組實體的嵌入向量的集合分別為和。

節點(局部)匹配層

在本層中,如圖(2)所示,作者運用一個注意匹配方法將一個主題實體圖的每個實體嵌入向量與另一個主題實體圖的所有實體嵌入向量分別按照從 G1 到 G2 的順序與從 G2 到 G1 的順序進行比較。首先計算 G1?中實體與 G2?中所有實體的 cosine 相似值。

然后,我們用這些相似點作為權重并通過對 G2?中所有實體嵌入向量加權求和的方式來計算整個圖的關注向量。

通過對每一步匹配運用多角度 cosine 匹配函數計算 G1?與 G2?中所有實體的匹配向量。

其中匹配函數具體如下:

是一個用于比較兩個向量的多角度 cosine 匹配函數:

其中,v1 與 v2?表示兩個維度為 d?的向量,是一個可訓練參數,l?是角度的數量,返回的 m?值是一個 l?維向量 m=。元素是從第 k 個角度得到的匹配值。這個匹配值是通過計算兩個權重向量的 cosine 相似得到的。

符號?°?表示對應元素相乘,Wk?表示矩陣 W 的第 k 行。Wk?控制著第 k 個角度,并為 d 維空間中不同的維度分配不同的權重。

圖(全局)匹配層:這些匹配向量捕獲了 G1 (G2) 中的每個實體如何被另一種語言的主題圖匹配。但是這種匹配只處于局部匹配階段,不足以對圖進行全局相似性計算。例如,有的實體在 G1?與 G2?中均幾乎沒有鄰居實體。對于這種情況,僅進行局部信息的匹配很可能會將這兩個本應對齊的實體判定為兩個不同的實體。

為了解決上述問題,運用另一個 GCNs 使得局部信息可以在圖中進行傳播。直觀地說,如果每個節點都表示為自己的匹配狀態,那么通過在圖上設計一個具有足夠大的跳數的 GCN,就能夠在整個圖的對之間編碼全局匹配狀態。將上述所得的局部匹配結果向量輸入到一個全連接神經網絡中,并用 max pooling 或 mean pooling 生成一個合適長度的圖匹配表示。

預測層

將圖匹配表示作為一個雙層前饋神經網絡的輸入,并在其輸出層運用 softmax 函數。

為了訓練模型,作者運用啟發式方法對每個正確對齊的實體對隨機構建 20 個錯誤案例。也就是說首先通過對每個實體表面形式中預先訓練的詞的嵌入向量加和粗略生成 G1?和 G2?的實體嵌入向量。然后再粗略的在其嵌入空間中選取 10 個與實體最近的實體,10 個與實體最近的實體構建錯誤案例實體對。在測試過程中,當給定一個 G1?中的實體時,根據本文模型評估出的匹配可能性對 G2?中的所有實體進行可能性值的計算,并按降序對計算結果進行排序。

實驗

在數據集 DBP15K 上對模型進行評估。這些數據集是通過將漢語、日語以及法語版本的 DBpedia 中的實體與英語版本的 DBpedia 中的實體進行連接得到的。每個數據集包含 1500 個內部語言連接,即在兩種不同語言的知識圖譜中對等實體的連接。

本實驗中采用 Adam 優化器更新參數,最小批尺寸設置為 32。學習率設置為 0.001。GCN1?與 GCN2 最大跳數 K 分別設置為 2 和 3。非線性函數?σ?設置為 ReLU。聚合器的參數是通過隨機初始化得到的。由于用不同的語言來表征指示圖譜,本文首先用 fastText 嵌入方法對單一語言的知識圖譜進行嵌入處理,并運用交叉語言詞匯嵌入方法將這些嵌入向量在同一個向量空間進行對齊。用這些對齊后的向量作為 GCN1?第一層輸入的初始化單詞表示向量。

結果和分析

本文中運用指標 Hits@1 與 Hits@10 對模型評估,其中 Hits@k 表示與某一實體正確對齊的實體排在前 k 個的比重。在跨語言嵌入空間中選擇 k 個最接近給定 G1 實體的 G2 實體,并令其中實體嵌入是單詞在其表面形式中的嵌入向量之和,以此作為本實驗中的 BASELINE。NodeMatching 則是將通過 GCN1?得到的兩個話題實體的嵌入向量不經過匹配層直接傳入預測層。

從表 1 可以看出,即使不考慮知識圖譜中具有的結構化信息,BASELINE 的結果仍然超過了之前從結構化的知識圖譜中主要學習了實體嵌入向量的方法得到的結果。因此可以表明在知識圖譜對齊任務中,表面形式是一個重要特征。NodeMatching 又通過使用 GCN1?將知識圖譜中的結構化信息編碼到實體嵌入向量中,得到了比? BASELINE 更好的結果。最后 GraphMatching 又通過將話題實體的全局上下文信息考慮其中,使其超過了所有方法。

本文還分析了 GCN2?的跳數對模型的影響。從表中結果可以看出,模型會隨著 GCN2?的跳數增大而獲得更好的結果,直到跳數達到某個閾值?λ,在實驗中作者發現當?λ=3 時模型效果最好。

為了更好地理解由于引入了圖匹配層,本文的模型可以更好地處理哪種類型的實體,進而分析了本文模型正確預測而 NodeMatching 沒有正確預測的實體。經過分析作者發現,圖匹配層加強了模型處理在兩個知識圖譜中最近鄰居不同的實體的匹配能力。對于這種實體來說,盡管更多的局部信息表明這兩個實體不相關,但是圖匹配層可以通過傳播圖中最相關的局部信息來緩解這種問題。

本文中提出的主題實體圖只保留了關系方向,而忽略了關系標簽。在實驗中,作者發現將關系標簽合并為不同的節點會將實體節點連接到主題圖中,這不僅會影響模型的性能,還會降低模型的效率。作者認為出現上述情況可能是由于以下兩點原因造成的:

  • 關系標簽在數據集中被表示為抽象符號,這提供了關于關系的相當有限的知識,使得模型很難在兩個知識圖譜中學習它們的對齊。

  • 合并關系標簽可能會顯著增加主題實體圖的尺寸,這需要更大的跳數和運行時間。

總結

本文通過引入圖卷積神經網絡,極大地提高了跨語言知識圖譜中實體對齊的準確性。本文的亮點之處主要體現在以下三點:

  • 本文提出了主題實體圖的構建,實現了相鄰實體間的信息傳遞,使得由此方法得到的每個節點向量包含了其多跳鄰居的信息,最大可能地保留了知識圖譜的結構化信息。并成功地將實體對齊問題轉化為圖匹配問題。

  • 本文運用圖卷積神經網絡構建圖匹配模型,在圖匹配層運用多角度余弦匹配函數計算相似性,并通過實驗論證了圖匹配層在本文模型中的重要性,也說明了不僅上下文的局部信息對實體對齊效果有巨大影響,全局信息對實體對齊任務同樣十分重要。

  • 本文驗證了對知識圖譜中關系信息的處理僅保留其方向而忽略其標簽具體內容有助于提高模型的效率與準確性的結論。

?


?

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。