ACL 2019开源论文 | 基于图匹配神经网络的跨语言知识图对齐
作者丨王文博
學(xué)校丨哈爾濱工程大學(xué)碩士生
研究方向丨知識(shí)圖譜、表示學(xué)習(xí)
動(dòng)機(jī)
在本篇文章之前,跨語(yǔ)言知識(shí)圖譜對(duì)齊研究?jī)H依賴于從單語(yǔ)知識(shí)圖譜結(jié)構(gòu)信息中獲得的實(shí)體嵌入向量。并且大多數(shù)研究將實(shí)體映射到低維空間中,用低維向量對(duì)多語(yǔ)言知識(shí)圖譜中的實(shí)體進(jìn)行編碼。并學(xué)習(xí)相似得分函數(shù),根據(jù)實(shí)體映射后的低維向量表示對(duì)其進(jìn)行匹配。但是又由于一些實(shí)體在不同的語(yǔ)言中具有不同的三元組事實(shí),實(shí)體嵌入中編碼的信息可能在不同的語(yǔ)言中是不同的,這使得基于傳統(tǒng)思想的方法很可能無(wú)法完成這類實(shí)體的匹配任務(wù)。
除此之外,傳統(tǒng)方法也沒(méi)有將實(shí)體的表面結(jié)構(gòu)信息編碼到嵌入向量中,使得具有少量鄰居的實(shí)體由于缺乏足夠的結(jié)構(gòu)化信息而無(wú)法匹配。故本文提出一種新穎的圖匹配方法,通過(guò)兩次運(yùn)用圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)分別解決構(gòu)建主題實(shí)體圖時(shí)相鄰實(shí)體間信息傳遞的問(wèn)題,與構(gòu)建全圖表示向量時(shí)局部信息的傳遞問(wèn)題,十分出色地完成了知識(shí)圖譜中實(shí)體對(duì)齊的問(wèn)題。
本文創(chuàng)新點(diǎn)如下:
引入主題實(shí)體圖,即指實(shí)體的局部子圖,用來(lái)表示實(shí)體與其對(duì)應(yīng)的上下文信息。
將知識(shí)圖譜中實(shí)體對(duì)齊問(wèn)題轉(zhuǎn)化為圖匹配問(wèn)題。進(jìn)一步提出了一種基于圖注意的解決方案,該方案首先匹配兩個(gè)主題實(shí)體圖中的所有實(shí)體,然后對(duì)局部匹配信息進(jìn)行聯(lián)合建模,得到圖級(jí)匹配向量。
主題實(shí)體圖
由于知識(shí)圖譜中實(shí)體的上下文信息對(duì)于知識(shí)圖譜對(duì)齊任務(wù)十分重要,在本文模型中引入主題實(shí)體圖的結(jié)構(gòu),用來(lái)表示知識(shí)圖譜中給定實(shí)體(話題實(shí)體)與它的鄰居之間的關(guān)系。圖二為主題圖的樣例。為了構(gòu)建主題圖,先建立與主題實(shí)體一跳相鄰的鄰居實(shí)體集合,用表示。然后從這個(gè)集合中任意選取兩個(gè)實(shí)體對(duì),若這個(gè)實(shí)體對(duì)在知識(shí)圖譜中存在關(guān)系使其直接相連,則在主題實(shí)體圖中為這個(gè)實(shí)體對(duì)保留直接相連的有向邊。
注:在主題實(shí)體圖中只保留邊的方向,不包含邊對(duì)應(yīng)的關(guān)系的具體信息。只有這樣才可以使得模型具有較高的效率和較好的表現(xiàn)結(jié)果。
?
圖匹配模型
圖 2 給出了本文模型在對(duì)齊英文知識(shí)圖譜與中文知識(shí)圖譜中實(shí)體 LebronJames 的大體過(guò)程。首先分別構(gòu)建出在兩個(gè)知識(shí)圖譜中的主題實(shí)體圖分別為 G1 和 C2。然后用提出的圖匹配模型去評(píng)估兩個(gè)主題實(shí)體圖是在描述同一個(gè)主題實(shí)體的可能性。匹配模型具體包含以下三層:
輸入表示層:這層的目的是通過(guò) GCN 學(xué)習(xí)出現(xiàn)在主題實(shí)體圖中的實(shí)體嵌入向量。以生成實(shí)體 v 的嵌入向量為例,具體步驟如下:
1. 首先用一個(gè)基于單詞的 LSTM 將圖中所有實(shí)體從名字轉(zhuǎn)化成向量,進(jìn)行初始化。并用符號(hào)表示實(shí)體 v 的初始化嵌入向量。
2. 對(duì)實(shí)體 v?的鄰居實(shí)體進(jìn)行分類,若該鄰居實(shí)體通過(guò)指向?qū)嶓w v?的邊與 v?相連,則該實(shí)體屬于集合,若該實(shí)體通過(guò)指向自己的邊與實(shí)體 v?相連,則該實(shí)體屬于集合。
3. 通過(guò)運(yùn)用一個(gè)聚合器,將指向?qū)嶓w v?的所有鄰居節(jié)點(diǎn)的表示轉(zhuǎn)化成一個(gè)單獨(dú)的向量,其中 k 是迭代值。該聚合器將與節(jié)點(diǎn) v 直接相鄰的所有節(jié)點(diǎn)的向量表示,作為一個(gè)全連接層神經(jīng)網(wǎng)絡(luò)的輸入,并運(yùn)用一個(gè)均值池化操作來(lái)捕捉鄰居集合中的不同方面特征,得到向量。
4. 將 k-1?輪得到的指向?qū)嶓w v?的鄰居集合的表示與新產(chǎn)生的進(jìn)行連接,并將連接后的向量放入全連接網(wǎng)絡(luò)去更新指向?qū)嶓w v?的鄰居集合的表示,得到。
5. 用與步驟(3)步驟(4)相同的方法在由實(shí)體 v?指出的鄰居集合中更新由實(shí)體 v?指出的鄰居集合的表示。
6. 重復(fù)步驟(3)-步驟(5)K 次,將最終的指向?qū)嶓w v 的鄰居集合的表示與由實(shí)體 v 指出的鄰居集合的表示進(jìn)行連接,作為單個(gè)實(shí)體的嵌入向量。最終得到兩組實(shí)體的嵌入向量的集合分別為和。
節(jié)點(diǎn)(局部)匹配層
在本層中,如圖(2)所示,作者運(yùn)用一個(gè)注意匹配方法將一個(gè)主題實(shí)體圖的每個(gè)實(shí)體嵌入向量與另一個(gè)主題實(shí)體圖的所有實(shí)體嵌入向量分別按照從 G1 到 G2 的順序與從 G2 到 G1 的順序進(jìn)行比較。首先計(jì)算 G1?中實(shí)體與 G2?中所有實(shí)體的 cosine 相似值。
然后,我們用這些相似點(diǎn)作為權(quán)重并通過(guò)對(duì) G2?中所有實(shí)體嵌入向量加權(quán)求和的方式來(lái)計(jì)算整個(gè)圖的關(guān)注向量。
通過(guò)對(duì)每一步匹配運(yùn)用多角度 cosine 匹配函數(shù)計(jì)算 G1?與 G2?中所有實(shí)體的匹配向量。
其中匹配函數(shù)具體如下:
是一個(gè)用于比較兩個(gè)向量的多角度 cosine 匹配函數(shù):
其中,v1 與 v2?表示兩個(gè)維度為 d?的向量,是一個(gè)可訓(xùn)練參數(shù),l?是角度的數(shù)量,返回的 m?值是一個(gè) l?維向量 m=。元素是從第 k 個(gè)角度得到的匹配值。這個(gè)匹配值是通過(guò)計(jì)算兩個(gè)權(quán)重向量的 cosine 相似得到的。
符號(hào)?°?表示對(duì)應(yīng)元素相乘,Wk?表示矩陣 W 的第 k 行。Wk?控制著第 k 個(gè)角度,并為 d 維空間中不同的維度分配不同的權(quán)重。
圖(全局)匹配層:這些匹配向量捕獲了 G1 (G2) 中的每個(gè)實(shí)體如何被另一種語(yǔ)言的主題圖匹配。但是這種匹配只處于局部匹配階段,不足以對(duì)圖進(jìn)行全局相似性計(jì)算。例如,有的實(shí)體在 G1?與 G2?中均幾乎沒(méi)有鄰居實(shí)體。對(duì)于這種情況,僅進(jìn)行局部信息的匹配很可能會(huì)將這兩個(gè)本應(yīng)對(duì)齊的實(shí)體判定為兩個(gè)不同的實(shí)體。
為了解決上述問(wèn)題,運(yùn)用另一個(gè) GCNs 使得局部信息可以在圖中進(jìn)行傳播。直觀地說(shuō),如果每個(gè)節(jié)點(diǎn)都表示為自己的匹配狀態(tài),那么通過(guò)在圖上設(shè)計(jì)一個(gè)具有足夠大的跳數(shù)的 GCN,就能夠在整個(gè)圖的對(duì)之間編碼全局匹配狀態(tài)。將上述所得的局部匹配結(jié)果向量輸入到一個(gè)全連接神經(jīng)網(wǎng)絡(luò)中,并用 max pooling 或 mean pooling 生成一個(gè)合適長(zhǎng)度的圖匹配表示。
預(yù)測(cè)層
將圖匹配表示作為一個(gè)雙層前饋神經(jīng)網(wǎng)絡(luò)的輸入,并在其輸出層運(yùn)用 softmax 函數(shù)。
為了訓(xùn)練模型,作者運(yùn)用啟發(fā)式方法對(duì)每個(gè)正確對(duì)齊的實(shí)體對(duì)隨機(jī)構(gòu)建 20 個(gè)錯(cuò)誤案例。也就是說(shuō)首先通過(guò)對(duì)每個(gè)實(shí)體表面形式中預(yù)先訓(xùn)練的詞的嵌入向量加和粗略生成 G1?和 G2?的實(shí)體嵌入向量。然后再粗略的在其嵌入空間中選取 10 個(gè)與實(shí)體最近的實(shí)體,10 個(gè)與實(shí)體最近的實(shí)體構(gòu)建錯(cuò)誤案例實(shí)體對(duì)。在測(cè)試過(guò)程中,當(dāng)給定一個(gè) G1?中的實(shí)體時(shí),根據(jù)本文模型評(píng)估出的匹配可能性對(duì) G2?中的所有實(shí)體進(jìn)行可能性值的計(jì)算,并按降序?qū)τ?jì)算結(jié)果進(jìn)行排序。
實(shí)驗(yàn)
在數(shù)據(jù)集 DBP15K 上對(duì)模型進(jìn)行評(píng)估。這些數(shù)據(jù)集是通過(guò)將漢語(yǔ)、日語(yǔ)以及法語(yǔ)版本的 DBpedia 中的實(shí)體與英語(yǔ)版本的 DBpedia 中的實(shí)體進(jìn)行連接得到的。每個(gè)數(shù)據(jù)集包含 1500 個(gè)內(nèi)部語(yǔ)言連接,即在兩種不同語(yǔ)言的知識(shí)圖譜中對(duì)等實(shí)體的連接。
本實(shí)驗(yàn)中采用 Adam 優(yōu)化器更新參數(shù),最小批尺寸設(shè)置為 32。學(xué)習(xí)率設(shè)置為 0.001。GCN1?與 GCN2 最大跳數(shù) K 分別設(shè)置為 2 和 3。非線性函數(shù)?σ?設(shè)置為 ReLU。聚合器的參數(shù)是通過(guò)隨機(jī)初始化得到的。由于用不同的語(yǔ)言來(lái)表征指示圖譜,本文首先用 fastText 嵌入方法對(duì)單一語(yǔ)言的知識(shí)圖譜進(jìn)行嵌入處理,并運(yùn)用交叉語(yǔ)言詞匯嵌入方法將這些嵌入向量在同一個(gè)向量空間進(jìn)行對(duì)齊。用這些對(duì)齊后的向量作為 GCN1?第一層輸入的初始化單詞表示向量。
結(jié)果和分析
本文中運(yùn)用指標(biāo) Hits@1 與 Hits@10 對(duì)模型評(píng)估,其中 Hits@k 表示與某一實(shí)體正確對(duì)齊的實(shí)體排在前 k 個(gè)的比重。在跨語(yǔ)言嵌入空間中選擇 k 個(gè)最接近給定 G1 實(shí)體的 G2 實(shí)體,并令其中實(shí)體嵌入是單詞在其表面形式中的嵌入向量之和,以此作為本實(shí)驗(yàn)中的 BASELINE。NodeMatching 則是將通過(guò) GCN1?得到的兩個(gè)話題實(shí)體的嵌入向量不經(jīng)過(guò)匹配層直接傳入預(yù)測(cè)層。
從表 1 可以看出,即使不考慮知識(shí)圖譜中具有的結(jié)構(gòu)化信息,BASELINE 的結(jié)果仍然超過(guò)了之前從結(jié)構(gòu)化的知識(shí)圖譜中主要學(xué)習(xí)了實(shí)體嵌入向量的方法得到的結(jié)果。因此可以表明在知識(shí)圖譜對(duì)齊任務(wù)中,表面形式是一個(gè)重要特征。NodeMatching 又通過(guò)使用 GCN1?將知識(shí)圖譜中的結(jié)構(gòu)化信息編碼到實(shí)體嵌入向量中,得到了比? BASELINE 更好的結(jié)果。最后 GraphMatching 又通過(guò)將話題實(shí)體的全局上下文信息考慮其中,使其超過(guò)了所有方法。
本文還分析了 GCN2?的跳數(shù)對(duì)模型的影響。從表中結(jié)果可以看出,模型會(huì)隨著 GCN2?的跳數(shù)增大而獲得更好的結(jié)果,直到跳數(shù)達(dá)到某個(gè)閾值?λ,在實(shí)驗(yàn)中作者發(fā)現(xiàn)當(dāng)?λ=3 時(shí)模型效果最好。
為了更好地理解由于引入了圖匹配層,本文的模型可以更好地處理哪種類型的實(shí)體,進(jìn)而分析了本文模型正確預(yù)測(cè)而 NodeMatching 沒(méi)有正確預(yù)測(cè)的實(shí)體。經(jīng)過(guò)分析作者發(fā)現(xiàn),圖匹配層加強(qiáng)了模型處理在兩個(gè)知識(shí)圖譜中最近鄰居不同的實(shí)體的匹配能力。對(duì)于這種實(shí)體來(lái)說(shuō),盡管更多的局部信息表明這兩個(gè)實(shí)體不相關(guān),但是圖匹配層可以通過(guò)傳播圖中最相關(guān)的局部信息來(lái)緩解這種問(wèn)題。
本文中提出的主題實(shí)體圖只保留了關(guān)系方向,而忽略了關(guān)系標(biāo)簽。在實(shí)驗(yàn)中,作者發(fā)現(xiàn)將關(guān)系標(biāo)簽合并為不同的節(jié)點(diǎn)會(huì)將實(shí)體節(jié)點(diǎn)連接到主題圖中,這不僅會(huì)影響模型的性能,還會(huì)降低模型的效率。作者認(rèn)為出現(xiàn)上述情況可能是由于以下兩點(diǎn)原因造成的:
關(guān)系標(biāo)簽在數(shù)據(jù)集中被表示為抽象符號(hào),這提供了關(guān)于關(guān)系的相當(dāng)有限的知識(shí),使得模型很難在兩個(gè)知識(shí)圖譜中學(xué)習(xí)它們的對(duì)齊。
合并關(guān)系標(biāo)簽可能會(huì)顯著增加主題實(shí)體圖的尺寸,這需要更大的跳數(shù)和運(yùn)行時(shí)間。
總結(jié)
本文通過(guò)引入圖卷積神經(jīng)網(wǎng)絡(luò),極大地提高了跨語(yǔ)言知識(shí)圖譜中實(shí)體對(duì)齊的準(zhǔn)確性。本文的亮點(diǎn)之處主要體現(xiàn)在以下三點(diǎn):
本文提出了主題實(shí)體圖的構(gòu)建,實(shí)現(xiàn)了相鄰實(shí)體間的信息傳遞,使得由此方法得到的每個(gè)節(jié)點(diǎn)向量包含了其多跳鄰居的信息,最大可能地保留了知識(shí)圖譜的結(jié)構(gòu)化信息。并成功地將實(shí)體對(duì)齊問(wèn)題轉(zhuǎn)化為圖匹配問(wèn)題。
本文運(yùn)用圖卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建圖匹配模型,在圖匹配層運(yùn)用多角度余弦匹配函數(shù)計(jì)算相似性,并通過(guò)實(shí)驗(yàn)論證了圖匹配層在本文模型中的重要性,也說(shuō)明了不僅上下文的局部信息對(duì)實(shí)體對(duì)齊效果有巨大影響,全局信息對(duì)實(shí)體對(duì)齊任務(wù)同樣十分重要。
本文驗(yàn)證了對(duì)知識(shí)圖譜中關(guān)系信息的處理僅保留其方向而忽略其標(biāo)簽具體內(nèi)容有助于提高模型的效率與準(zhǔn)確性的結(jié)論。
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
ICLR 2020:從去噪自編碼器到生成模型
ACL 2019 | 使用話語(yǔ)重寫(xiě)器改進(jìn)多輪人機(jī)對(duì)話
ACL 2019?| 基于Attention的知識(shí)圖譜關(guān)系預(yù)測(cè)
EMNLP 2019 |?針對(duì)短文本分類的異質(zhì)圖注意力網(wǎng)絡(luò)
功守道:NLP中的對(duì)抗訓(xùn)練 + PyTorch實(shí)現(xiàn)
從三大頂會(huì)論文看百變Self-Attention
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 下載論文 & 源碼
總結(jié)
以上是生活随笔為你收集整理的ACL 2019开源论文 | 基于图匹配神经网络的跨语言知识图对齐的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 直招士官要求有哪些?
- 下一篇: 北凉正妃为什么不是姜泥 揭秘北凉历史上的