當(dāng)前位置：首頁 > 人工智能 > 卷积神经网络 >内容正文

卷积神经网络

图卷积神经网络(GCN)理解与tensorflow2.0代码实现

發(fā)布時間：2023/12/19 卷积神经网络 99 豆豆

生活随笔收集整理的這篇文章主要介紹了图卷积神经网络(GCN)理解与tensorflow2.0代码实现小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

圖(Graph)，一般用 $G = (V, E)$ 表示，這里的 $V$ 是圖中節(jié)點(diǎn)的集合， $E$ 為邊的集合，節(jié)點(diǎn)的個數(shù)用 $N$ 表示。在一個圖中，有三個比較重要的矩陣：

特征矩陣

X

：維度為

N×DN\times D

，表示圖中有N個節(jié)點(diǎn)，每個節(jié)點(diǎn)的特征個數(shù)是D。

鄰居矩陣

A

：維度為

N×NN\times N

，表示圖中N個節(jié)點(diǎn)之間的連接關(guān)系。

度矩陣

D

：維度為

N×NN\times N

，是一個對角矩陣，即只有對角線上不為零，其他位置元素都是 0 ，表示圖中N個節(jié)點(diǎn)與其他節(jié)點(diǎn)相連的邊的個數(shù)。對于無權(quán)圖而言，

Dii=∑jAijD_{ii}=\sum_j A_{ij}

。

鄰接矩陣與度矩陣?yán)尤缦聢D所示：

對于圖像(Image)數(shù)據(jù)，我們可以用卷積核來提取特征，無論卷積核覆蓋在圖像的哪個部分，其內(nèi)部結(jié)構(gòu)都是一樣的，這是因為圖片結(jié)構(gòu)具有平移不變性，如下圖左半部分所示：

但是對于圖(Graph)數(shù)據(jù)而言，其形狀是不規(guī)則的，不具有平移不變性。于是 GCN，也就是圖卷積神經(jīng)網(wǎng)絡(luò)，其目標(biāo)就是設(shè)計一種特征提取器，進(jìn)而完成節(jié)點(diǎn)分類、變預(yù)測等任務(wù)，還順便可以得到每個節(jié)點(diǎn)的 embedding 表示。

上面展示了一個簡單的 3x3 的卷積核，每次自左向右，自上而下掃描圖片(Image)時，都是將 3x3 的像素進(jìn)行加權(quán)求和，即： $∑i=19wixi\sum_{i=1}^9 w_i x_i$ ，然后將求和的結(jié)果作為該 3x3 區(qū)域的特征。

那么在圖(graph)中要怎么提取特征？這里給出兩種思路。

圖卷積

思路一

CNN加權(quán)求和的思想也可以應(yīng)用到圖(Graph)的特征提取上，如下圖所示：

對于節(jié)點(diǎn) $i$ ，我們可以用其鄰接節(jié)點(diǎn)加權(quán)求和的結(jié)果來表示當(dāng)前節(jié)點(diǎn)，這個操作我們稱為“聚合(aggregate)”：
$agg(Xi)=∑j∈neighbor(i)AijXjagg(X_i) = \sum_{j \in neighbor(i)} A_{ij} X_j$
考慮到與節(jié)點(diǎn) $i$ 沒有邊連接的節(jié)點(diǎn) $j$ ，對應(yīng)的權(quán)重 $A_{ij}$ 為 0 ，因此上面的公式又可以改寫為：
$agg(Xi)=∑j∈NAijXjagg(X_i) = \sum_{j \in N} A_{ij} X_j$
那么，對于所有的節(jié)點(diǎn)而言，其聚合的結(jié)果可以用下面的公式表示：
$a g g (X) = A X$
上面的公式只考慮了鄰居加權(quán)求和的結(jié)果，很多情況下，節(jié)點(diǎn)自身的信息是不可忽略的，因此一般情況下會把自身的特征也加回來：
$agg(Xi)=∑j∈NAijXj+Xiagg(X_i) = \sum_{j \in N} A_{ij} X_j + X_i$
于是有：
$a g g (X) = A X + X = (A + I) X$
其中， $I$ 是單位矩陣，令：
$A~=A+I\tilde A = A+I$
則有：
$\tilde AX$
也就是說把單位矩陣 $I$ 加到鄰接矩陣 $A$ 上，即可在聚合操作中加入自身特征了。

現(xiàn)在有個問題，只能用自身節(jié)點(diǎn)以及鄰居節(jié)點(diǎn)加權(quán)求和的結(jié)果來表示某個節(jié)點(diǎn)的特征嗎？其實還有另一種思路。

思路二

在某些情況下，我們更關(guān)注節(jié)點(diǎn)之間的差值，因此可以對差值進(jìn)行加權(quán)求和：
$agg(Xi)=∑j∈NAij(Xi?Xj)=DiiXi?∑j∈NAijXj\begin{aligned} agg(X_i) & = \sum_{j \in N} A_{ij} (X_i - X_j) \\ &= D_{ii}X_i- \sum_{j \in N} A_{ij}X_j \\ \end{aligned}$
其中，D 表示度矩陣，表示節(jié)點(diǎn)與其他節(jié)點(diǎn)相連的邊的個數(shù)，對于無權(quán)圖而言， $Dii=∑jAijD_{ii}=\sum_j A_{ij}$ 。

對于整個圖的節(jié)點(diǎn)而言，上面的公式可以轉(zhuǎn)換為矩陣化的表示：
$agg(X)=DX?AX=(D?A)X\begin{aligned} agg(X) &= DX - AX \\ &= (D-A)X \end{aligned}$

實際上，上面公式中的 $D ? A$ 是拉普拉斯矩陣（用 $L$ 表示）：
$L = D ? A$
拉普拉斯矩陣如下圖所示：

如果想更多地了解拉普拉斯矩陣在GCN中的作用，可以參考：如何理解 Graph Convolutional Network（GCN）？

歸一化

無論是思路一的 $A~\tilde A$ 還是思路二的 $L$ ，與CNN的卷積相似之處都是局部數(shù)據(jù)的聚合操作，只不過CNN 中卷積的局部連接數(shù)是固定的。但是在Graph中每個節(jié)點(diǎn)的鄰居個數(shù)都可能不同，進(jìn)行聚合操作后，對于度較大的節(jié)點(diǎn)，得到的特征比較大，度較少的節(jié)點(diǎn)得到的特征就比較小，因此還需要進(jìn)行歸一化的處理。

歸一化的思路有兩種：

（1）算數(shù)平均
$L^{rw}=D^{-1}L$
（2）幾何平均
$L^{sym}=D^{-0.5}LD^{-0.5}$
幾何平均受極端值影響較小，因此是GCN中比較常用的歸一化方法，于是有：
$agg(X)=LsymX=D?0.5LD?0.5X=D?0.5(D?A)D?0.5X\begin{aligned} agg(X) &= L^{sym} X \\ &= D^{-0.5}LD^{-0.5}X \\ &= D^{-0.5}(D-A)D^{-0.5} X \end{aligned}$
當(dāng)然也可以是：
$agg(X)=D?0.5A~D?0.5X=D?0.5(A+I)D?0.5X\begin{aligned} agg(X) & = D^{-0.5}\tilde A D^{-0.5} X\\ & = D^{-0.5}(A+I)D^{-0.5} X \end{aligned}$
在實際的GCN代碼實現(xiàn)中，會對聚合結(jié)果進(jìn)行一些變換，第 $l$ 層到第 $l + 1$ 層的傳播方式為：
$H(l+1)=σ(D~?12A~D~?12H(l)W(l))H^{(l+1)}=\sigma\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{(l)} W^{(l)}\right)$
其中：

$A~=A+I\tilde A=A+I$ ，也可以是 $A~=D?A\tilde A = D - A$
$D~\tilde D$ 是 $A~\tilde A$ 的度矩陣，每個元素為： $D~ii=∑jA~ij\tilde D_{ii}=\sum_j \tilde A_{ij}$
$H$ 是每一層的特征，對于輸入層而言， $H$ 就是 $X$
σ 是 sigmoid 函數(shù)

由于 D 是在矩陣 A 的基礎(chǔ)上得到的，因此在給定矩陣 A 之后， $D~?12A~D~?12\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}}$ 就可以事先計算好。

代碼實現(xiàn)

相關(guān)代碼可以在文末獲取。

Cora 數(shù)據(jù)集介紹

Cora數(shù)據(jù)集由機(jī)器學(xué)習(xí)論文組成，是近年來圖深度學(xué)習(xí)很喜歡使用的數(shù)據(jù)集。整個數(shù)據(jù)集有2708篇論文，所有樣本點(diǎn)被分為8個類別，類別分別是1）基于案例；2）遺傳算法；3）神經(jīng)網(wǎng)絡(luò)；4）概率方法；5）強(qiáng)化學(xué)習(xí)；6）規(guī)則學(xué)習(xí)；7）理論。每篇論文都由一個1433維的詞向量表示，所以，每個樣本點(diǎn)具有1433個特征。詞向量的每個元素都對應(yīng)一個詞，且該元素只有0或1兩個取值。取0表示該元素對應(yīng)的詞不在論文中，取1表示在論文中。

定義圖卷積層

import tensorflow as tf from tensorflow.keras import activations, regularizers, constraints, initializersclass GCNConv(tf.keras.layers.Layer):def __init__(self,units,activation=lambda x: x,use_bias=True,kernel_initializer='glorot_uniform',bias_initializer='zeros',**kwargs):super(GCNConv, self).__init__()self.units = unitsself.activation = activations.get(activation)self.use_bias = use_biasself.kernel_initializer = initializers.get(kernel_initializer)self.bias_initializer = initializers.get(bias_initializer)def build(self, input_shape):""" GCN has two inputs : [shape(An), shape(X)]"""fdim = input_shape[1][1] # feature dim# 初始化權(quán)重矩陣self.weight = self.add_weight(name="weight",shape=(fdim, self.units),initializer=self.kernel_initializer,trainable=True)if self.use_bias:# 初始化偏置項self.bias = self.add_weight(name="bias",shape=(self.units, ),initializer=self.bias_initializer,trainable=True)def call(self, inputs):""" GCN has two inputs : [An, X]"""self.An = inputs[0]self.X = inputs[1]# 計算 XWif isinstance(self.X, tf.SparseTensor):h = tf.sparse.sparse_dense_matmul(self.X, self.weight)else:h = tf.matmul(self.X, self.weight)# 計算 AXWoutput = tf.sparse.sparse_dense_matmul(self.An, h)if self.use_bias:output = tf.nn.bias_add(output, self.bias)if self.activation:output = self.activation(output)return output

定義 GCN 模型

class GCN():def __init__(self, An, X, sizes, **kwargs):self.with_relu = Trueself.with_bias = Trueself.lr = FLAGS.learning_rateself.dropout = FLAGS.dropoutself.verbose = FLAGS.verboseself.An = Anself.X = Xself.layer_sizes = sizesself.shape = An.shapeself.An_tf = sp_matrix_to_sp_tensor(self.An)self.X_tf = sp_matrix_to_sp_tensor(self.X)self.layer1 = GCNConv(self.layer_sizes[0], activation='relu')self.layer2 = GCNConv(self.layer_sizes[1])self.opt = tf.optimizers.Adam(learning_rate=self.lr)def train(self, idx_train, labels_train, idx_val, labels_val):K = labels_train.max() + 1train_losses = []val_losses = []# use adam to optimizefor it in range(FLAGS.epochs):tic = time()with tf.GradientTape() as tape:_loss = self.loss_fn(idx_train, np.eye(K)[labels_train])# optimize over weightsgrad_list = tape.gradient(_loss, self.var_list)grads_and_vars = zip(grad_list, self.var_list)self.opt.apply_gradients(grads_and_vars)# evaluate on the trainingtrain_loss, train_acc = self.evaluate(idx_train, labels_train, training=True)train_losses.append(train_loss)val_loss, val_acc = self.evaluate(idx_val, labels_val, training=False)val_losses.append(val_loss)toc = time()if self.verbose:print("iter:{:03d}".format(it),"train_loss:{:.4f}".format(train_loss),"train_acc:{:.4f}".format(train_acc),"val_loss:{:.4f}".format(val_loss),"val_acc:{:.4f}".format(val_acc),"time:{:.4f}".format(toc - tic))return train_lossesdef loss_fn(self, idx, labels, training=True):if training:# .nnz 是獲得X中元素的個數(shù)_X = sparse_dropout(self.X_tf, self.dropout, [self.X.nnz])else:_X = self.X_tfself.h1 = self.layer1([self.An_tf, _X])if training:_h1 = tf.nn.dropout(self.h1, self.dropout)else:_h1 = self.h1self.h2 = self.layer2([self.An_tf, _h1])self.var_list = self.layer1.weights + self.layer2.weights# calculate the loss base on idx and labels_logits = tf.gather(self.h2, idx)_loss_per_node = tf.nn.softmax_cross_entropy_with_logits(labels=labels,logits=_logits)_loss = tf.reduce_mean(_loss_per_node)# 加上 l2 正則化項_loss += FLAGS.weight_decay * sum(map(tf.nn.l2_loss, self.layer1.weights))return _lossdef evaluate(self, idx, true_labels, training):K = true_labels.max() + 1_loss = self.loss_fn(idx, np.eye(K)[true_labels], training=training).numpy()_pred_logits = tf.gather(self.h2, idx)_pred_labels = tf.argmax(_pred_logits, axis=1).numpy()_acc = accuracy_score(_pred_labels, true_labels)return _loss, _acc

訓(xùn)練模型

# 計算標(biāo)準(zhǔn)化的鄰接矩陣：根號D * A * 根號D def preprocess_graph(adj):# _A = A + I_adj = adj + sp.eye(adj.shape[0])# _dseq：各個節(jié)點(diǎn)的度構(gòu)成的列表_dseq = _adj.sum(1).A1# 構(gòu)造開根號的度矩陣_D_half = sp.diags(np.power(_dseq, -0.5))# 計算標(biāo)準(zhǔn)化的鄰接矩陣, @ 表示矩陣乘法adj_normalized = _D_half @ _adj @ _D_halfreturn adj_normalized.tocsr()if __name__ == "__main__":# 讀取數(shù)據(jù)# A_mat：鄰接矩陣，以scipy的csr形式存儲# X_mat：特征矩陣，以scipy的csr形式存儲# z_vec：label# train_idx,val_idx,test_idx: 要使用的節(jié)點(diǎn)序號A_mat, X_mat, z_vec, train_idx, val_idx, test_idx = load_data_planetoid(FLAGS.dataset)# 鄰居矩陣標(biāo)準(zhǔn)化An_mat = preprocess_graph(A_mat)# 節(jié)點(diǎn)的類別個數(shù)K = z_vec.max() + 1# 構(gòu)造GCN模型gcn = GCN(An_mat, X_mat, [FLAGS.hidden1, K])# 訓(xùn)練gcn.train(train_idx, z_vec[train_idx], val_idx, z_vec[val_idx])# 測試test_res = gcn.evaluate(test_idx, z_vec[test_idx], training=False)print("Dataset {}".format(FLAGS.dataset),"Test loss {:.4f}".format(test_res[0]),"test acc {:.4f}".format(test_res[1]))

GCN 小結(jié)

本文使用到的代碼與數(shù)據(jù)集地址：https://github.com/zxxwin/tf2_gcn

GCN的優(yōu)點(diǎn)：可以捕捉graph的全局信息，從而很好地表示node的特征。

GCN的缺點(diǎn)：

屬于直推式(transductive)的學(xué)習(xí)方式，模型學(xué)習(xí)的權(quán)重W與圖的鄰接矩陣A和度矩陣D息息相關(guān)，一旦圖的結(jié)構(gòu)發(fā)生變化，那么A與D也就變化了，模型就得重新訓(xùn)練。

需要把所有節(jié)點(diǎn)都參與訓(xùn)練才能得到node embedding，當(dāng)圖的節(jié)點(diǎn)很多，圖的結(jié)構(gòu)很復(fù)雜時，訓(xùn)練成本非常高，難以快速適應(yīng)圖結(jié)構(gòu)的變化。

參考文章：

如何理解 Graph Convolutional Network（GCN）？

2020年，我終于決定入門GCN

GCN(Graph Convolutional Network)的理解

總結(jié)

以上是生活随笔為你收集整理的图卷积神经网络(GCN)理解与tensorflow2.0代码实现的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：杭州公积金最高基数
下一篇：深度学习（三）转-可视化理解卷积神经网络

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

卷积神经网络

图卷积神经网络(GCN)理解与tensorflow2.0代码实现

圖卷積

思路一

思路二

歸一化

代碼實現(xiàn)

Cora 數(shù)據(jù)集介紹

定義圖卷積層

定義 GCN 模型

訓(xùn)練模型

GCN 小結(jié)

總結(jié)