node2vec文献出处_社交网络分析(五)-Node2Vec
Node2vec簡述
繼續萬物皆可embedding之旅,在DeepWalk之后出現了Line和Node2vec兩種改進算法,Line的兩階段方式個人覺得太過丑陋,因此直接跳到Node2vec,其考慮了BFS和DFS兩種搜索策略,能夠更充分的對圖網絡進行同質性和結構相似性的建模,因此也取得了非常好的結果。
Tips
首先作者闡明了在類似社交網絡圖結構中,在兩種情況下,node的embedding需要非常的相似,第一是同質性,即node處在同一個社交團體中,下圖中的u和s1,s2,s3,s4;第二是結構相似性,即社交群的中心節點或者是兩個社交群之間的鏈接節點,下圖中的u和s6。因此我們的采樣方式需要針對這些情況作出更合理的采樣,以此使得后續的skipgram能夠對同質性和結構相似性作出較好的建模。
為什么BFS和DFS的搜索策略能夠反映同質性和結構相似性呢。首先需要明確一點,同質性更強調節點與節點間的連接關系,而結構相似性不強調這一點,即使是非常遠的節點,也可能具有非常相似的結構,但是基本不太可能具有同質性。BFS,廣度搜索,可以對結構相似性作出更好的建模,因為結構相似的節點比如中心節點和橋節點的結構表達,僅僅需要觀測其鄰接節點就能夠有一個很直觀的刻畫;而對于DFS,深度搜索,其更能在一個宏觀的角度反映出一個節點與其周圍節點(不一定是最近鄰節點)的局部關系,需要多走一點,看多一點,variance高一點,才能了解整個局部關系,因此更適合社交群的建模。
通過控制參數來實現靈活的調整BFS和DFS自由度的采樣算法,使得采樣出的序列能夠更好的反應同質性和結構相似性。
假設在0時刻,采樣到的節點為t,在1時刻,采樣到的節點為V,那么在2時刻,從V轉移到節點x的概率是這樣定義的:
需要注意的是,這里的距離的源節點是t而不是現在所處的節點V。參數p控制返回到源節點的概率,p值大的話,表示不容易進行重復采樣,使得walk進行適度的向外探索,避免重復冗余。參數q控制BFS和DFS的程度,具體來說,q大于1,即在t節點,下一步更容易采樣到距離源節點一跳的節點,即周圍節點,傾向于BFS。而q小于1,下一步更容易采樣到離源節點2跳的節點,傾向于DFS。在真正采樣的過程中,這些轉移概率是可以事先算好的,所以并不會影響采樣的效率。確定完采樣策略后,接下來的操作基本和DeepWalk別無二致了。
看一個toy example。上半圖是p=1,q=0.5的采樣學到的embedding的可視圖,很明顯是對同質性的刻畫,對應DFS;下半圖是p=1,q=2的可視圖,很明顯是對中心節點、橋節點和邊緣節點的刻畫,對應BFS。
最后引論文中的一句話作為總結 we observed that BFS can explore only limited neighborhoods. This makes BFS suitable for characterizing structural equivalences in network that rely on the immediate local structure of nodes. On the other hand, DFS can freely explore network neighborhoods which is important in discovering homophilous communities at the cost of high variance.
參考文獻
Grover A, Leskovec J. node2vec: Scalable feature learning for networks[C]//Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2016: 855-864.
總結
以上是生活随笔為你收集整理的node2vec文献出处_社交网络分析(五)-Node2Vec的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux多个客户端如何通信_linux
- 下一篇: c语言位运算负数的实例_一招教你学会C语