图卷积网络 - 爱码网

文章来自https://tkipf.github.io/graph-convolutional-networks/

图卷积网络（GCNS）的定义

对于图卷积网络模型，目标是学习一种信号/特征的图表示函数 $\mathcal{G}=(\mathcal{V}, \mathcal{E})$ ，其输入为：

每个结点 $i$ 的特征 $x_{i}$ 组成的 $N \times D$ 的特征矩阵 $X$ （ $N$ ：节点的数量， $D$ ：输入特征的维度）
图结构的矩阵表示，常见的为图的邻接矩阵 $A$ ，输出为 $N \times F$ 的特征矩阵 $Z$ ， $F$ 为每个节点输出特征的维度。

每一个神经网络层可以用一个非线性函数来表示。
$H^{(l+1)}=f\left(H^{(l)}, A\right)$

网络初始输入 $H^{(0)}=X$ ，第 $L$ 层输出 $H^{(L)}=Z$ 。不同的模型一般只是在 $f(\cdot, \cdot)$ 的选择和参数的选择上有所不同。

图卷积网络一个简单的例子

假设我们考虑下面这种前向传播模型：
$f\left(H^{(l)}, A\right)=\sigma\left(A H^{(l)} W^{(l)}\right)$ ， $W^{(l)}$ 为l-th的权重矩阵， $\sigma(\cdot)$ 为非线性**函数。尽管这个模型很简单，但是他非常强大。
但是我们对这个模型提出两个限制。

在邻接矩阵中，主对角线上的值为0（除非有自环），意味着对每个结点，上面的操作会把除了节点本身的其他邻接节点的特征相加。为了解决这个问题，我们需要给每个节点添加自环，即给 $A$ 加一个单位阵。
$A$ 是没有归一化的，因此左乘A会完全改变特征向量的尺度。归一化 $A$ 意味着每行行相加等于1，所以我们给A左乘一个“diagonal node degree matrix” $D$ 的逆,“diagonal node degree matrix”即对角线元素为每个节点度的矩阵。在实际中常使用规范化对称操作，i.e. $D^{-\frac{1}{2}} A D^{-\frac{1}{2}}$ .

合并这两个限制，我们得到：
$f\left(H^{(l)}, A\right)=\sigma\left(\hat{D}^{-\frac{1}{2}} \hat{A} \hat{D}^{-\frac{1}{2}} H^{(l)} W^{(l)}\right)$

其中 $\hat{A}=A+I$ ，其中 $I$ 是单位矩阵， $\hat{D}$ 是矩阵 $\hat{A}$ 的对角节点度矩阵。

图卷积网络实战

图卷积网络
上图是一个著名的图数据集： Zachary’s karate club network
我们采用随机初始权重的3-layer GCN.同时我们输入图的邻接矩阵和特征矩阵 $X=I$ （令 $X$ 为单位矩阵，因为我们没有任何节点的特征）。这个三层的GCN进行三次前向传播，并且对每个节点的3-order邻居节点进行卷积。最后网络输出的的embedding如下图所示。
图卷积网络

可以看到，embedding 很好地代表了不同的节点community的结构，而且是在没有训练的情况下。

我们可以用Weisfeiler-Lehman algorithm来解释这种现象。一维Weisfeiler-Lehman原理如下：
对于所有节点 $v_{i} \in \mathcal{G}$ ：

获取所有相邻节点 $\left\{v_{j}\right\}$ 的特征 $\left\{h_{v_{j}}\right\}$
更新节点特征 $h_{v_{i}} \leftarrow \operatorname{hash}\left(\sum_{j} h_{v_{j}}\right)$ ，其中hash $(\cdot)$ 是一个单射哈希函数
重复上面操作 $k$ 此，或者直到收敛。

在实际中， Weisfeiler-Lehman 会为大多数图产生一个不重复的特征集和，这样每个节点都在图中具有不同的角色。除了高度规则的图形，如网格、链。对于大多数不规则的图，这种特征分配可以用来检查图的同构性(即两个图是否完全相同）。
回到我们的图卷积前向传播规则(现在是向量形式)

$h_{v_{i}}^{(l+1)}=\sigma\left(\sum_{j} \frac{1}{c_{i j}} h_{v_{j}}^{(l)} W^{(l)}\right)$ 其中 $j$ 表示 $v_{i}$ 的相邻节点， $c_{i j}$ 是边 $\left(v_{i}, v_{j}\right)$ 的归一化常数，源于规范化邻接矩阵 $D^{-\frac{1}{2}} A D^{-\frac{1}{2}}$ 。我们现在看到这个传播规则可以被解释为在初始Weisfeiler-Lehman algorithm里哈希函数使用的可微和参数化（使用 $W^{(l)}$ ）变量。·如果我们现在选择一个适当的非线性**函数并初始化随机权值矩阵使其正交，那么这个更新规则在实践中变得稳健。并且我们获得了更加平滑的embedding结果，这样我们就可以把节点间的距离解释为局部图结构的相似性。