论文浅尝 | 利用边缘标签的网络嵌入强化方法
鏈接:https://arxiv.org/pdf/1809.05124.pdf
? ? ? ? ? ?本文主要關(guān)注Network embedding問題,以往的network embedding方法只將是網(wǎng)絡(luò)中的邊看作二分類的邊(0,1),忽略了邊的標(biāo)簽信息,本文提出的方法能夠較好的保存網(wǎng)絡(luò)結(jié)構(gòu)和邊的語義信息來進(jìn)行network embedding的學(xué)習(xí)。實(shí)驗(yàn)結(jié)果證明本文的方法在多標(biāo)簽結(jié)點(diǎn)分類任務(wù)中有著突出表現(xiàn)。
? ? ? ? ? ?Network embedding的工作就是學(xué)習(xí)得到低維度的向量來表示網(wǎng)絡(luò)中的結(jié)點(diǎn),低維度的向量包含了結(jié)點(diǎn)之間邊的復(fù)雜信息。這些學(xué)習(xí)得到的向量可以用來結(jié)點(diǎn)分類,結(jié)點(diǎn)與結(jié)點(diǎn)之間的關(guān)系預(yù)測。
Model
? ? ? ? ? ?本文將總體的損失函數(shù)分為兩塊:Structural Loss和Relational Loss,定義為:
Structural loss:
? ? ? ?給定中心結(jié)點(diǎn)u,模型最大化觀察到“上下文”結(jié)點(diǎn)v的情況下u的概率,C(v)表示點(diǎn)v的“上下文”結(jié)點(diǎn),“上下文”結(jié)點(diǎn)不是直接連接的結(jié)點(diǎn),而是用類似于deepwalk中的random walk方法得到。通過不斷在網(wǎng)絡(luò)中游走,得到多串序列,在序列中結(jié)點(diǎn)V的“上下文”結(jié)點(diǎn)為以點(diǎn)V為中心的窗口大小內(nèi)的結(jié)點(diǎn)。本文采用skip-gram模型來定義Pr(u|v),Φ(v)是結(jié)點(diǎn)作為中心詞的向量,Φ‘(v)是結(jié)點(diǎn)作為“上下文”的向量。Pr(u|v)的定義為一個(gè)softmax函數(shù),同word2vec一樣,采用負(fù)采樣的方法來加快訓(xùn)練。
Relational loss:
? ? ? ? ? ?以前也有方法利用了結(jié)點(diǎn)的標(biāo)簽,但是沒有利用邊的標(biāo)簽信息。本文將邊的標(biāo)簽信息利用起來。邊e的向量由兩端的結(jié)點(diǎn)u,v定義得到,定義為:
其中g(shù)函數(shù)是將結(jié)點(diǎn)向量映射為邊向量的函數(shù):Rd*Rd->Rd’ ,本文發(fā)現(xiàn)簡單的連接操作效果最好。
? ? ? ? ? ?將邊的向量信息置入一個(gè)前饋神經(jīng)網(wǎng)絡(luò),第k層隱藏層定義為:
? ?? ? ? ? ? ? ?
? ? ? ? ? ?其中,W(k)為第k層的權(quán)重矩陣,b(k)為第k層的偏置矩陣,h(0)= Φ(e)。
并且將預(yù)測出的邊的標(biāo)簽與真實(shí)的邊的標(biāo)簽計(jì)算二元交叉損失函數(shù)。真實(shí)的邊的標(biāo)簽向量為y,神經(jīng)網(wǎng)絡(luò)預(yù)測的邊的標(biāo)簽向量為y?。邊的損失函數(shù)定義為:
? ? ? ? ? ?本文算法的偽代碼如下:
結(jié)果分析
? ? ? ? ? ?表1和表2展示了五種方法在兩個(gè)數(shù)據(jù)集上結(jié)點(diǎn)分類的表現(xiàn)。本文使用了5%,10%,20%的含有標(biāo)簽的結(jié)點(diǎn)。本文考慮到了在現(xiàn)實(shí)中,有標(biāo)簽關(guān)系的稀有性,所以本文只使用了10%的標(biāo)簽數(shù)據(jù)。可以觀察到即使是很小比例的標(biāo)簽關(guān)系,結(jié)果也優(yōu)于基礎(chǔ)方法。在ArnetMiner數(shù)據(jù)集上表現(xiàn)得比AmazonReviews好的原因是,類似于ArnetMiner數(shù)據(jù)集的協(xié)作網(wǎng)絡(luò),關(guān)系的標(biāo)簽通常指明了結(jié)點(diǎn)的特征了,所以對于結(jié)點(diǎn)分類來說,高于AmazonReviewers是正常現(xiàn)象。
總結(jié)
? ? ? ? ? ?本文的方法相比于以往的network embedding方法的優(yōu)勢在于,除了利用了網(wǎng)絡(luò)的結(jié)構(gòu)信息,同時(shí)也利用了網(wǎng)絡(luò)中的邊的標(biāo)簽信息。在真實(shí)世界的網(wǎng)絡(luò)中證實(shí)了本文的方法通過捕捉結(jié)點(diǎn)之間的不同的關(guān)系,在結(jié)點(diǎn)分類任務(wù)中,網(wǎng)絡(luò)中的結(jié)點(diǎn)表示能獲得更好的效果。
論文筆記整理:黃焱暉,東南大學(xué)碩士,研究方向?yàn)橹R圖譜,自然語言處理。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
轉(zhuǎn)載須知:轉(zhuǎn)載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標(biāo)題,請注明原標(biāo)題。
?
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 利用边缘标签的网络嵌入强化方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习(Machine Learnin
- 下一篇: 知识图谱与智能问答基础理解