日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 一种嵌入效率极高的 node embedding 方式

發(fā)布時(shí)間:2024/7/5 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 一种嵌入效率极高的 node embedding 方式 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文筆記整理:葉群,浙江大學(xué)計(jì)算機(jī)學(xué)院,知識(shí)圖譜、NLP方向。



會(huì)議:WSDM 2019

鏈接:https://dl.acm.org/citation.cfm?id=3290961

Motivation

基于spring-electrical的模型在網(wǎng)絡(luò)可視化中取得了非常成功的應(yīng)用,一個(gè)優(yōu)秀的網(wǎng)絡(luò)可視化算法意味著越相似的節(jié)點(diǎn)在空間中歐式距離越相近。本文將spring-electrical模型應(yīng)用在了鏈接預(yù)測(cè)問(wèn)題上,前提是假設(shè)節(jié)點(diǎn)之間的歐氏距離和節(jié)點(diǎn)之間存在link的概率成正相關(guān)。性能評(píng)估上,模型與baseline的對(duì)比顯示了其性能的優(yōu)越,尤其是在node embedding維度很低的時(shí)候。


Problem Statement

????? 知識(shí)圖譜由于種種原因,其中很多節(jié)點(diǎn)之間存在缺失的邊。鏈接預(yù)測(cè)算法指的是,給定網(wǎng)絡(luò)節(jié)點(diǎn)和網(wǎng)絡(luò)結(jié)構(gòu)等信息,去預(yù)測(cè)尚未存在邊的節(jié)點(diǎn)之間存在鏈接的概率。實(shí)驗(yàn)中,給定網(wǎng)絡(luò)G=<V,E>,我們隨機(jī)掩蓋一定比例的邊(如10%),并采樣一部分負(fù)例作為測(cè)試集,然后將剩下90%的邊和所有節(jié)點(diǎn)作為訓(xùn)練集。

評(píng)估指標(biāo)采用AUC值:

Baseline

介紹三種常用的baseline

1. Local similarity indices

分析節(jié)點(diǎn)周?chē)木植拷Y(jié)構(gòu),作為節(jié)點(diǎn)之間存在鏈接的概率(以下式子中δ表示節(jié)點(diǎn)的相鄰一跳節(jié)點(diǎn))。

  • Common neighbours:以兩節(jié)點(diǎn)公共鄰居的個(gè)數(shù)來(lái)衡量存在鏈接的概率


  • Adamic-Adar indexcommon neighbours的一種加權(quán)的改進(jìn)


  • Preferential Attachment index:以節(jié)點(diǎn)現(xiàn)有的度來(lái)衡量節(jié)點(diǎn)之間存在鏈接的概率(非常na?veassumption


2. Matrix factorization

矩陣分解的方式將網(wǎng)絡(luò)的鄰接矩陣作為輸入,分解成兩個(gè)低秩的矩陣。低秩矩陣的行或列可以作為節(jié)點(diǎn)的latent feature,將兩節(jié)點(diǎn)的latent feature做點(diǎn)積,即可得到兩節(jié)點(diǎn)之間存在鏈接的概率。

  • Truncate SVD


  • Non-negative matrix factorizationNMF


3. Neural embedding

一些工作嘗試用神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)graph embedding,比如經(jīng)典的DeepWalknode2vec算法,都是受word2vec的啟發(fā)。基本思想是將圖中的節(jié)點(diǎn)當(dāng)做單詞,在圖中隨機(jī)游走得到一系列節(jié)點(diǎn)當(dāng)作一個(gè)句子,然后利用word2vec的目標(biāo)函數(shù)來(lái)做訓(xùn)練。訓(xùn)練完成后,將節(jié)點(diǎn)的embedding做點(diǎn)積,即得到節(jié)點(diǎn)之間存在鏈接的概率。


Model

Spring-electrical中的spring指的是彈簧,electrical指的是電荷,其基本思想是將一張圖當(dāng)做一個(gè)機(jī)械系統(tǒng),將圖中的節(jié)點(diǎn)比作電荷,將邊比作彈簧。所有的電荷均為同性電荷,相互之間存在斥力;彈簧力表現(xiàn)為引力。基于這樣的假設(shè),當(dāng)這個(gè)力學(xué)系統(tǒng)達(dá)到平衡之后,不存在邊相連的節(jié)點(diǎn)將會(huì)由于斥力,在空間距離上分布較遠(yuǎn)。

對(duì)庫(kù)倫定律進(jìn)行修改,引入超參p,電荷之間的斥力公式為:


對(duì)虎克定律進(jìn)行修改,彈簧的引力公式為:

通過(guò)利用力是能量的負(fù)梯度這個(gè)性質(zhì),可以將一個(gè)力學(xué)系統(tǒng)轉(zhuǎn)換成能量系統(tǒng),力的平衡對(duì)應(yīng)系統(tǒng)能量的最小值。所以,目標(biāo)函數(shù)為求解系統(tǒng)能量的極小值,即:


???? 上式的求解存在兩個(gè)問(wèn)題:1)計(jì)算復(fù)雜度過(guò)大;2)容易收斂到局部極小值。本文采用了一種叫做ScalableForce Directed PlacementSFDP)的優(yōu)化方法進(jìn)行求解,較好的解決了這兩個(gè)問(wèn)題。

Case Study

????? 在實(shí)際的數(shù)據(jù)集上進(jìn)行評(píng)估之前,本文先在由球體的三角剖分得到的圖上進(jìn)行了casestudy。鏈接預(yù)測(cè)的結(jié)果如下圖所示,可以看到SFDP方法取得了很好的效果,同時(shí)注意到SFDP方法在向量維度極小的情況(d=2,3)下,依舊取得非常好的效果。

除此之外,實(shí)驗(yàn)將d=3的向量進(jìn)行了可視化(如下圖),比較了不同模型可視化的差異。可以看到,SFDP方法很好的保留了球體的原始形狀,SVD向量分布在3條坐標(biāo)軸上,node2vec則是一個(gè)錐形。造成這種差異的原因是,SFDP采用了歐式距離作為損失函數(shù),而SVDnode2vec則是基于點(diǎn)積。基于歐式距離的損失函數(shù)會(huì)使不相似的節(jié)點(diǎn)在空間上盡可能遠(yuǎn),而點(diǎn)積則會(huì)使不相似節(jié)點(diǎn)盡可能垂直。

Experiment

實(shí)驗(yàn)在以下幾個(gè)公開(kāi)數(shù)據(jù)集上做了評(píng)估:PowerGrid: 美國(guó)的電力供應(yīng)網(wǎng)絡(luò);Euroroad: 歐洲道路交通網(wǎng)絡(luò);Airport: 美國(guó)航空機(jī)場(chǎng)網(wǎng)絡(luò);Facebook:????? Facebook社交網(wǎng)絡(luò);Reactome: 蛋白質(zhì)的相互作用網(wǎng)絡(luò);Ca-HepTh:arXiv上的作者合作關(guān)系網(wǎng)絡(luò)。

實(shí)驗(yàn)結(jié)果如下圖所示,SFDP在多數(shù)數(shù)據(jù)集上的表現(xiàn)都達(dá)到最優(yōu),同時(shí)在向量維度d=2,3時(shí)就可以得到非常好的實(shí)驗(yàn)效果。

下表是得到最佳結(jié)果時(shí)embedding維度的比較,SFDP方法在d=2,3維度時(shí)的結(jié)果就可以媲美其他模型100維甚至500維的效果,embedding效率極高。

下表給出了SFDP模型與localsimilarity indices方法的效果比較:

另外實(shí)驗(yàn)還在二分網(wǎng)絡(luò)和有向圖數(shù)據(jù)集上進(jìn)行評(píng)估,并對(duì)SFDP做了相應(yīng)的修改。


Conclusion

??????????? 本文將網(wǎng)絡(luò)可視化中的spring-electrical模型應(yīng)用在了鏈接預(yù)測(cè)問(wèn)題上,在數(shù)據(jù)集評(píng)估上取得了十分優(yōu)越的結(jié)果,尤其是在低維空間展現(xiàn)了非常好的效果。Embedding維度效率的提升可以解決向量嵌入在現(xiàn)實(shí)應(yīng)用中的一些問(wèn)題,如向量維度過(guò)高時(shí)最近鄰搜索的計(jì)算復(fù)雜度過(guò)高。后續(xù)工作可以聚焦在如何為latent feature model選擇更優(yōu)的距離度量以及向量維度效率更深入的分析。

?



OpenKG


開(kāi)放知識(shí)圖譜(簡(jiǎn)稱(chēng) OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | 一种嵌入效率极高的 node embedding 方式的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。