當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【图神经网络】GNN从入门到精通

發(fā)布時間：2023/12/16 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了【图神经网络】GNN从入门到精通小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

1.Graph基本介紹
- 1.1 圖的表示
- 1.2 圖的特性
- - ? 子圖 Subgraph
  - ? 接通圖 Connected Graph
  - ? 連通分量 Connected Component
  - ? 最短路徑 Shortest Path
  - ? 圖直徑 Diameter
- 1.3 圖中心性. Centrality
- - ? 度中心性 Degree Centrality
  - ? 特征向量中心性 Eigenvector Centrality
  - ? 中介中心性 Betweenness Centrality
  - ? 連接中心性 Closeness Centrality
- 1.4 圖矩陣
- - 關聯(lián)矩陣
  - 度矩陣
  - 鄰接矩陣
  - 拉普拉斯矩陣
- 1.5 網(wǎng)頁排序算法
- - ? PageRank
  - ? HITS
2.Graph Embedding
- 2.1 DeepWalk
- 2.2 LINE
- 2.3 node2vec

1.Graph基本介紹

1.1 圖的表示

什么是圖？

圖是由節(jié)點與邊構成的數(shù)據(jù)結構。

圖的表示？

無向圖（兩個節(jié)點之間的邊沒有方向）

有向圖（兩個節(jié)點之間的邊有方向）

如何去表示一張圖？

使用鄰接矩陣：矩陣中兩個節(jié)點有邊則為1，無邊為0

圖的性質：度（degree）

無向圖的度：節(jié)點邊的條數(shù)

有向圖的度：分為出度（該節(jié)點指向其它節(jié)點的邊的條數(shù)）、入度（其它節(jié)點指向該節(jié)點的邊的條數(shù)）

1.2 圖的特性

? 子圖 Subgraph

? 大圖的一部分，子圖中所有節(jié)點與邊以及節(jié)點和邊的關系都是大圖的一部分。

? 接通圖 Connected Graph

對于一個無向圖，如果任意的節(jié)點i能夠通過一些邊到達節(jié)點j ，則稱之為連通圖

有向圖的連通性：

? 強連通圖：給定有向圖G=（VE），并且給定該圖G中的任意兩個結點u和v，如果結點u與節(jié)點v互相可達，即至少存在一條路徑可以由結點u開始，到結點v終止，同時存在至少有一條路徑可以由結點v開始，到結點u終止，那么就稱該有向圖G是強連通圖。

? 若連通圖：若至少有一對結點不滿足單向連通，但去掉邊的方向后從無向圖的觀點看是連通圖，則D稱為弱連通圖。

? 連通分量 Connected Component

連通分量：無向圖G的一個極大連通子圖稱為G的一個連通分量(或連通分支)。

連通圖只有一個連通分量，即其自身。

非連通圖有多個連通分量。

? 最短路徑 Shortest Path

連接圖中兩個節(jié)點的最短路徑。

? 圖直徑 Diameter

圖中兩兩結點最短路徑的最大值。

1.3 圖中心性. Centrality

? 度中心性 Degree Centrality

$N_{degree}$ : 節(jié)點N的度， $n$ : 節(jié)點總數(shù)

? 特征向量中心性 Eigenvector Centrality

對圖的鄰接矩陣求特征值與特征向量，計算出最大的特征值所對應的特征向量就表示是這個節(jié)點的特征向量中心性。

? 其中 $A$ 為鄰接矩陣，所求的特征值有五個，其中2.4811943為最高值，對應的特征向量為小紅框的內(nèi)容，乘以-1 對結果不影響，所以特征向量中心性為下面的值，其中1結點與5結點的值最大，表示1結點與5結點的度最大。其中4結點比2、3結點特征向量中心性大的原因是4結點連接的兩個節(jié)點度大。

? 不知考慮了自身節(jié)點度的情況還考慮了與它相鄰節(jié)點度的情況。表示了在圖中該節(jié)點所屬的位置情況。

? 中介中心性 Betweenness Centrality

圖中其余兩兩節(jié)點如果想要最短路徑到達那么經(jīng)過一個節(jié)點的次數(shù)就是中介中心性。

在第一個式子中計算曹操的中介中心性時，分子中第一個括號里的內(nèi)容表示蔡文姬到其余節(jié)點最短路徑的次數(shù)，0：蔡文姬到甄姬最短路徑為1，經(jīng)過曹操節(jié)點的次數(shù)為0,1：蔡文姬到司馬懿與夏侯惇的最短路徑為3，經(jīng)過曹操節(jié)點的次數(shù)為1,0.5：蔡文姬到典韋的最短路徑是2，有兩條路，所以為0.5。

? 連接中心性 Closeness Centrality

1.4 圖矩陣

一個圖G= (V,E)由它的頂點與邊之間的關聯(lián)關系唯一確定,也由它的頂點對之間的鄰接關系唯一確定.圖的這種關系均可以用矩陣來描述,分別稱為G的關聯(lián)矩陣與鄰接矩陣.
一個圖的矩陣表示不僅僅是給出了圖的一種表示方法，重要的是可通過對這些矩陣的討論得到有關圖的若干性質.此外,在圖論的應用中，圖的矩陣表示也具有重要的作用.。

關聯(lián)矩陣

度矩陣

形狀：numnodes(G)×numnodes(G)
對角線為節(jié)點的度，其他為0。

鄰接矩陣

性質

形狀：numnodes(G)×numnodes(G)
對角線為0，其他看兩節(jié)點間是否有關系連接，如果有則為1，沒有則為0.

拉普拉斯矩陣

對于一個給定的圖G=（V,E)，拉普拉斯矩陣定義為L=D-W，D被稱為圖的度矩陣，W是圖的鄰接矩陣。度矩陣由鄰接矩陣轉換，W和D之間的關系如下：

將W每列元素相加，放到對應行的對角線上就是D，那么拉普拉斯矩陣就是 L = D - W。

L 的對角線元素指示節(jié)點的度，即 L(j,j) 是節(jié)點 j 的度。
拉普拉斯矩陣。L 是對稱的稀疏方陣，大小為numnodes(G)×numnodes(G)。對于具有自環(huán)的圖，未定義圖拉普拉斯矩陣。

1.5 網(wǎng)頁排序算法

? PageRank

PageRank谷歌提出的網(wǎng)頁排序算法。
邊的PageRank值等于這個節(jié)點的PageRank值除以指向其它節(jié)點邊的條數(shù)。
節(jié)點的PageRank值等于所有指向該節(jié)點邊的PageRank值之和。
阻尼系數(shù)：上個節(jié)點的PageRank值有多大的概率不傳到下一個節(jié)點。

? HITS

節(jié)點的Hub值等于這個節(jié)點指向的節(jié)點的authority值的和。（出）
節(jié)點的authority的值等于指向該節(jié)點的節(jié)點Hub值的和。（入）

2.Graph Embedding

想要表示圖中的每一個節(jié)點可能會使用n維長度的one-hot編碼向量，n為節(jié)點個數(shù)。
one-hot缺點：
1.如果節(jié)點比較多的話，向量長度就比較大。
2. 丟失了節(jié)點在圖中的信息情況。
網(wǎng)絡嵌入就是將網(wǎng)絡中的點用一個低維的向量表示，并且這些向量要能反應原先網(wǎng)絡的某些特性，比如如果在原網(wǎng)絡中兩個點的結構類似，那么這兩個點表示成的向量也應該類似。
graph embedding(GE) = graph representation embedding(GRE) = network embedding(NE) = network presentation embedding(NPE)

Graph embedding的作用：簡化了節(jié)點的特征長度，保留了節(jié)點在圖上的信息。

Graph embedding算法：

2.1 DeepWalk

【論文筆記】DeepWalk
一種網(wǎng)絡嵌入的方法叫DeepWalk，它的輸入是一張圖或者網(wǎng)絡，輸出為網(wǎng)絡中頂點的向量表示。DeepWalk通過截斷隨機游走(truncated random walk)學習出一個網(wǎng)絡的社會表示(social representation)，在網(wǎng)絡標注頂點很少的情況也能得到比較好的效果。并且該方法還具有可擴展的優(yōu)點，能夠適應網(wǎng)絡的變化。

網(wǎng)絡節(jié)點的表示(node representation)就是利用了詞嵌入（詞向量）的的思想。詞嵌入的基本處理元素是單詞，對應網(wǎng)絡網(wǎng)絡節(jié)點的表示的處理元素是網(wǎng)絡節(jié)點；詞嵌入是對構成一個句子中單詞序列進行分析，那么網(wǎng)絡節(jié)點的表示中節(jié)點構成的序列就是隨機游走。

所謂隨機游走(random walk)，就是在網(wǎng)絡上不斷重復地隨機選擇游走路徑，最終形成一條貫穿網(wǎng)絡的路徑。從某個特定的端點開始，游走的每一步都從與當前節(jié)點相連的邊中隨機選擇一條，沿著選定的邊移動到下一個頂點，不斷重復這個過程。下圖所示綠色部分即為一條隨機游走。

關于隨機游走的符號解釋：以 $v_i$ 為根節(jié)點生成的一條隨機游走路徑（綠色）為 $W_{v_i}$ ，其中路徑上的點（藍色）分別標記為 $Wvi1,Wvi2,Wvi3...W^1_{v_i},W^2_{v_i},W^3_{v_i}...$ …，截斷隨機游走(truncated random walk)實際上就是長度固定的隨機游走。

使用隨機游走有兩個好處：

并行化，隨機游走是局部的，對于一個大的網(wǎng)絡來說，可以同時在不同的頂點開始進行一定長度的隨機游走，多個隨機游走同時進行，可以減少采樣的時間。
適應性，可以適應網(wǎng)絡局部的變化。網(wǎng)絡的演化通常是局部的點和邊的變化，這樣的變化只會對部分隨機游走路徑產(chǎn)生影響，因此在網(wǎng)絡的演化過程中不需要每一次都重新計算整個網(wǎng)絡的隨機游走。

Algorithm
整個DeepWalk算法包含兩部分，一部分是隨機游走的生成，另一部分是參數(shù)的更新。
其中第2步是構建Hierarchical Softmax，第3步對每個節(jié)點做γ次隨機游走，第4步打亂網(wǎng)絡中的節(jié)點，第5步以每個節(jié)點為根節(jié)點生成長度為t的隨機游走，第7步根據(jù)生成的隨機游走使用skip-gram模型利用梯度的方法對參數(shù)進行更新。
參數(shù)更新的細節(jié)如下：

2.2 LINE

DeepWalk在無向圖上，LINE在有向圖可以使用。
論文名稱：LINE: Large-scale Information Network Embedding
這篇論文同樣是做網(wǎng)絡嵌入，文章的主要特點是：

適合任意尺寸的網(wǎng)絡，不論是有向圖還是無向圖還是帶權圖。

本文提出的目標函數(shù)（objective function）同時考慮了網(wǎng)絡局部特征和全局特征。

提出一種邊采樣的算法，可以很好地解決SGD的效率問題。（這部分沒怎么看懂，因此沒寫出來，感興趣的可以去看看原文）

本文提出的網(wǎng)絡表示方法十分高效，可以在小時范圍內(nèi)的單機節(jié)點上學習百萬級頂點網(wǎng)絡的表示。

將下面兩種情況的兩個頂點歸結為相似頂點：

如果兩個頂點之間有一條強連接的邊（權重很大的邊），那么這兩個頂點就是相似的。圖中頂點6與7就是這種相似。

如果兩個頂點共享了很多相同的鄰居頂點，那么這兩個頂點也是相似的。圖中頂點5和6雖然沒有直接相連，但是他們同時連接到了頂點1234，所以頂點5和6也是相似的。

這兩種相似性在文中被描述成了1階相似性和2階相似性。1階相似性認為兩個頂點的邊權重越大，兩個頂點越相似。2階相似性認為兩個頂點的共同鄰居越多，兩個頂點越相似。

相關工作中diss了一波傳統(tǒng)方法的效果，有一些方法使用的是矩陣分解的思想，對圖的特征矩陣（拉普拉斯矩陣、鄰接矩陣）做特征分解，然而這些方法需要大量的計算，并且效果也有局限性。文中還提到了上一篇論文DeepWalk，將本文與Deepwalk做了對比。

2.3 node2vec

論文名稱：node2vec: Scalable Feature Learning for Networks
node2vec的思想同DeepWalk一樣：生成隨機游走，對隨機游走采樣得到（節(jié)點，上下文）的組合，然后用處理詞向量的方法對這樣的組合建模得到網(wǎng)絡節(jié)點的表示。不過在生成隨機游走過程中做了一些創(chuàng)新。
首先介紹了復雜網(wǎng)絡面對的幾種任務，一種是網(wǎng)絡節(jié)點的分類，通俗點說就是將網(wǎng)絡中的節(jié)點進行聚類，我們關心的是哪些節(jié)點具有類似的屬性，就將其分到同一個類別中。另一種是鏈接預測，就是預測網(wǎng)絡中哪些頂點有潛在的關聯(lián)。
一種結構特征是很多節(jié)點會聚集在一起，內(nèi)部的連接遠比外部的連接多，我們稱之為社區(qū)。另一種結構特征是網(wǎng)絡中兩個可能相聚很遠的點，在邊的連接上有著類似的特征。比如下圖， $u,s_{1},s_2,s_3.s_4$ 就屬于一個社區(qū)，而 $u,s_6$ 在結構上有著相似的特征。
那么要設計的網(wǎng)絡表示學習算法的目標必須滿足這兩點：

同一個社區(qū)內(nèi)的節(jié)點表示相似。–同質性 homophily

擁有類似結構特征的節(jié)點表示相似。–結構等價性 structural equivalence

說到隨機游走的采樣，本文分析了兩種圖的游走方式，深度優(yōu)先游走（Depth-first Sampling，DFS）和廣度優(yōu)先游走（Breadth-first Sampling，BFS），之前的圖中也畫出了兩種游走的路徑，學過圖論或者數(shù)據(jù)結構的很好理解。游走的路徑就是采樣后得到的隨機游走。

復雜網(wǎng)絡處理的任務其實離不開兩種特性，前面也提到過：一種是同質性，就是之前所說的社區(qū)。一種就是結構相似性，值得注意的是，結構相似的兩個點未必相連，可以是相距很遠的兩個節(jié)點。

BFS傾向于在初始節(jié)點的周圍游走，可以反映出一個節(jié)點的鄰居的微觀特性；而DFS一般會跑的離初始節(jié)點越來越遠，可以反映出一個節(jié)點鄰居的宏觀特性。

鋪墊了這么多終于到本文的工作了，能不能改進DeepWalk中隨機游走的方式，使它綜合DFS和BFS的特性呢？所以本文引入了兩個參數(shù)用來控制隨機游走產(chǎn)生的方式。

上圖中，對于一個隨機游走，如果已經(jīng)采樣了 $(t, v)$ ，也就是說現(xiàn)在停留在節(jié)點v上，那么下一個要采樣的節(jié)點x是哪個？作者定義了一個概率分布，也就是一個節(jié)點到它的不同鄰居的轉移概率：

![在這里

下面來逐行看看論文中提供的算法：

首先看一下算法的參數(shù)，圖G、表示向量維度d、每個節(jié)點生成的游走個數(shù)r，游走長度l，上下文的窗口長度k，以及之前提到的p、q參數(shù)。

根據(jù)p、q和之前的公式計算一個節(jié)點到它的鄰居的轉移概率。

將這個轉移概率加到圖G中形成G’。

walks用來存儲隨機游走，先初始化為空。

外循環(huán)r次表示每個節(jié)點作為初始節(jié)點要生成r個隨機游走。

然后對圖中每個節(jié)點。

生成一條隨機游走walk。

將walk添加到walks中保存。

然后用SGD的方法對walks進行訓練。
第6步中一條walk的生成方式如下：

將初始節(jié)點u添加進去。

walk的長度為l，因此還要再循環(huán)添加l-1個節(jié)點。

當前節(jié)點設為walk最后添加的節(jié)點。

找出當前節(jié)點的所有鄰居節(jié)點。

根據(jù)轉移概率采樣選擇某個鄰居s。

將該鄰居添加到walk中。

Experiments

下圖是一些實驗結果和可視化效果：

總結

以上是生活随笔為你收集整理的【图神经网络】GNN从入门到精通的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。