图卷积神经网络（Graph Convolutional Network）的卷积

本文主要参考了:

从CNN到GCN的联系与区别——GCN从入门到精（fang）通（qi）

Chebyshev多项式作为GCN卷积核

拉普拉斯矩阵与拉普拉斯算子的关系

其他见参考文献部分。

1.拉普拉斯矩阵

1.1 简单图的拉普拉斯矩阵

给定一个具有 $n$ 个顶点的简单无向图 $G(V,E)$ ，

$A$ 是图 $G=(V,E)$ 的邻接矩阵
$D$ 是顶点的度矩阵（对角矩阵）， $D_{ii} = \sum_{j}A_{ij}$
拉普拉斯矩阵 $L_{n \times n}$ 为 $L = D - A$ 。

$L$ 中的元素定义为
$L_{i,j} = \begin{cases} deg(v_i) & \text{if } i = j \\ -1 & \text{if } i \neq j \text{and is } v_i \text{ adjacent to } v_j\\ 0 & \text{otherwise} \end{cases}$
其中 $deg(v_i)$ 是顶点 $v_i$ 的度。

可以验证，对于任意的图 $G=(V,E)$ 的顶点 $V$ 上的函数 $f \in \mathbb{R}^n$ 都有:
$\left( \mathcal{L} f \right)(v_i) = \sum_{v_i \sim v_j} a_{i,j} \left( f(v_i) - f(v_j) \right).$
其中 $v_i \sim v_j$ 表示所有与顶点 $v_i$ 相连接的顶点集合， $a_{i,j}$ 是两顶点 $v_i,v_j$ 之间的连接权重。

1.2 对称归一化拉普拉斯算子

对称归一化拉普拉斯矩阵定义为：
$L^{sys} = D^{-\frac{1}{2}} L D^{-\frac{1}{2}} = I_{N} - D^{-\frac{1}{2}} A D^{-\frac{1}{2}}$
$L^{sys}$ 中的元素定义为
$L_{i,j}^{sys} = \begin{cases} 1 & \text{if } i = j \text{ and } deg(v_i) \neq 0\\ -\frac{1}{\sqrt{deg(v_i) deg(v_j)}}& \text{if } i \neq j \text{ nd is } v_i \text{ adjacent to } v_j\\ 0 & \text{otherwise} \end{cases}$

1.3 随机游走归一化拉普拉斯算子

随机游走归一化拉普拉斯矩阵定义为：
$L^{rw} = D^{-1} L = I_{N} - D^{-1} A$

$L^{rw}$ 中的元素定义为
$L_{i,j}^{rw} = \begin{cases} 1 & \text{if } i = j \text{ and } deg(v_i) \neq 0\\ -\frac{1}{deg(v_i)}& \text{if } i \neq j \text{ nd is } v_i \text{ adjacent to } v_j\\ 0 & \text{otherwise} \end{cases}$

1.4 拉普拉斯矩阵的基本性质

对于（无向）图 $G(V,E)$ 及其具有特征值的拉普拉斯矩阵 $L$ ，将其特征值排列为 $\lambda_0, \lambda_1, \cdots, \lambda_{n-1}$ :

$L$ 是对称的。
$L$ 是半正定的，即 $\lambda_i \geq 0$ 。
$L$ 的每一行和列总和为零。
$L$ 是M矩阵。

L矩阵的定义：若 $A$ 一个 $n\times n$ 的方阵，若 $a_{ii}>0$ , 而 $a_{ij} \leq 0 (i \neq j)$ ，则称 $A$ 为L矩阵。
M矩阵的定义：若 $A$ 为L矩阵，其为M矩阵的条件为下列之一：

$A$ 的所有特征值的实部皆为正。

$A$ 的所有主子式皆为正。

$A$ 的所有顺序主子式皆为正。

$A$ 的逆存在且为非负矩阵。

有正向量 $\vec{x}$ ，使 $A\vec{x}$ 为正向量。

有对角线主元素全为正的对角形矩阵（叫做正对角形矩阵） $D$ ，使 $AD\vec{e}$ 为正向量，其中 $\vec{e}=(1,\cdots,1)^T$ 。

对实向量 $\vec{x}$ ，若 $A\vec{x}$ 非负，则 $\vec{x}$ 非负。

若 $D=diag(A), C=D-A,B=D^{-1}*C$ ，则 $ρ(B)<1$ ，其中 $ρ(B)$ 为 $B$ 的特征值的模的最大值。

$B=\lambda I-A$ 为非负矩阵，其中 $I$ 为单位矩阵， $\lambda>ρ(B)$ 。

若 $B$ 为 $L$ 矩阵，且 $b_{ij} \geq a_{ij}, i,j=1,2,\cdots,n$ ，则 $B$ 的逆存在。

存在下三角矩阵 $T$ 和上三角矩阵 $U$ ，其中 $T$ 和 $U$ 均为L矩阵，使 $A=TU$ .

1.5拉普拉斯矩阵特征值分解

对 $L$ 特征值分解为
$L = U \begin{pmatrix} \lambda_0 & & \\ & \ddots & \\ & & \lambda_{n-1} \\ \end{pmatrix} U^{-1} = U \Lambda U^{-1}.$
其中 $U = (\vec{u}_0,\vec{u}_1,\cdots, \vec{u}_{n-1})$ 是由 $L$ 的特征向量（列向量）组成的矩阵，相应列的特征向量与特征值矩阵 $\Lambda$ 相应列的特征值相互对应。

由于 $U$ 是正交矩阵，即 $U U^T = I_n$ ，即上面的式子又可以写成：
$L = U \Lambda U^T.$

2.拉普拉斯算子

2.1拉普拉斯算子的定义

梯度：设 $f:\mathbb{R}^3 \rightarrow \mathbb{R}$ 在空间区域 $G$ 上具有一阶连续偏导数，点 $P(x_1, x_2, x_3) \in G$ ，称向量
$\left( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \frac{\partial f}{\partial x_3} \right) = \frac{\partial f}{\partial x_1} \vec{i_1} + \frac{\partial f}{\partial x_2} \vec{i_2} + \frac{\partial f}{\partial x_3} \vec{i_3}$
为函数 $f$ 在点 $P$ 处的梯度，记作 $\nabla f (x_1, x_2, x_3)$ 或 $grad(f)$ 。

其中
$\nabla = \frac{\partial}{\partial x_1} \vec{i_1} + \frac{\partial}{\partial x_2} \vec{i_2} + \frac{\partial}{\partial x_3} \vec{i_3}$
称作（三维）向量的微分算子。多维的则为 $\nabla = \sum_{j=1}^{n} \frac{\partial}{\partial x_j} \vec{i_j}$ 。

散度散度 " $\nabla .$ " （divergence）可用于表针空间中各点矢量场发散的强弱程度，物理上，散度的意义是场的有源性。当 $div(F) > 0$ ，表示该点有散发通量的正源（发散源）；当 $div(F) < 0$ 表示该点有吸收能量的负源（洞或汇）；当 $div(F) = 0$ ，表示该点无源。

拉普拉斯算子：拉普拉斯算子（Laplace Operator）是 $n$ 维欧几里得空间中的一个二阶微分算子，定义为梯度（ $\nabla f$ ）的散度（ $\nabla .$ ）。 $\Delta f = \nabla^2 f = \nabla . \nabla f = div(grad(f))$ 。

笛卡尔坐标系下的表示法：
$\Delta f = \frac{\partial^2 f}{\partial x_1^2} + \frac{\partial^2 f}{\partial x_2^2} + \frac{\partial^2 f}{\partial x_3^2}$
$n$ 维时为 $\Delta = \sum_{i} \frac{\partial^2 f}{\partial x_i^2}$ 。

2.2离散拉普拉斯算子

在离散的情况下， $\frac{\partial f}{ \partial x} = f^{'}(x) = f(x+1) - f(x)$ ，
则
$\begin{aligned} \frac{\partial^2 f}{\partial x^2} &= f^{''}(x) \approx f^{'}(x) - f^{'}(x-1) \\ &= f(x+1) + f(x-1) - 2f(x). \end{aligned}$

以二维情况为例子，见下图：

图卷积神经网络（Graph Convolutional Network）的卷积

$\begin{aligned} \Delta f &= \frac{\partial^2 f}{\partial x^2} + \frac{\partial^2 f}{\partial y^2} \\ &= \left( f(x+1, y) + f(x-1, y) - 2f(x, y) \right) + \left( f(x, y+1) + f(x, y-1) - 2f(x, y) \right) \\ &= f(x+1, y) + f(x-1, y) + f(x, y+1) + f(x, y-1) - 4f(x, y) \end{aligned}$

现在用散度的概念解读一下：

如果 $\Delta f = 0$ ，可以近似认为中心点 $f(x,y)$ 的势和其周围点的势是相等的， $f(x,y)$ 局部范围内不存在势差。所以该点无源
$\Delta f > 0$ ，可以近似认为中心点 $f(x,y)$ 的势低于周围点，可以想象成中心点如恒星一样发出能量，补给周围的点，所以该点是正源
$\Delta f < 0$ ,可以近似认为中心点 $f(x,y)$ 的势高于周围点，可以想象成中心点如吸引子一样在吸收能量，所以该点是负源

另一个角度，拉普拉斯算子计算了周围点与中心点的梯度差。当 $f(x,y)$ 受到扰动之后，其可能变为相邻的 $f(x+1,y),f(x-1,y),f(x,y+1),f(x,y-1)$ 之一，拉普拉斯算子得到的是对该点进行微小扰动后可能获得的总增益（或者说是总变化）。

2.3图上的拉普拉斯算子

现在将这个结论推广到图：假设具有 $N$ 个节点的图 $G$ ，此时以上定义的函数 $f$ 不再是二维，而是 $N$ 维向量： $f=(f_1,f_2,\cdots,f_N)$ ，其中 $f_i$ 为函数 $f$ 在图中节点 $v_i$ 处的函数值。类比于 $f(x,y)$ 在节点 $(x,y)$ 处的值。对 $v_i$ 节点进行扰动，它可能变为任意一个与它相邻的节点 $v_j \in N_i$ , $N_i$ 表示节点 $v_i$ 的一阶邻域节点。

如下图：

图卷积神经网络（Graph Convolutional Network）的卷积

上面已经知道拉普拉斯算子可以计算一个点到它所有自由度上微小扰动的增益，则通过图来表示就是任意一个节点 $v_j$ 变化到节点 $v_i$ 所带来的增益，考虑图中边的权值相等（简单说就是1）则有：
$\Delta f_i = \sum_{v_j \in N_i} (f_i - f_j).$
而如果 $e_{i,j}$ 具有权重 $a_{ij}$ 时，则为：
$\Delta f_i = \sum_{v_j \in N_i} a_{ij}(f_i - f_j).$

上式即为 $\left( \mathcal{L} f \right)(v_i) = \sum_{v_i \sim v_j} a_{i,j} \left( f(v_i) - f(v_j) \right)$ 。

可以看到上面的式子仅限于 $v_j \in N_i$ （或 $v_i \sim v_j$ ），如果令 $a_{ij}=0$ 表示节点 $v_i,v_j$ 不相连。则可以拓展：
$\begin{aligned} \Delta f_i &= \sum_{v_j \in V} a_{ij}(f_i - f_j) \\ &= \sum_{v_j \in V} a_{ij} f_i - \sum_{v_j \in V} a_{ij} f_j \\ &= \left( \sum_{v_j \in V} a_{ij} \right) f_i - \vec{a_i} \vec{f}. \end{aligned}$
记 $d_i = \sum_{v_j \in V} a_{ij}$ 是顶点 $v_i$ 的度。

对所有的 $N$ 个节点有：
$\begin{aligned} \Delta f &= \begin{pmatrix} \Delta f_1 \\ \vdots \\ \Delta f_N \end{pmatrix} =\begin{pmatrix} d_1 f_1 - \vec{a_1} \vec{f} \\ \vdots \\ d_N f_N - \vec{a_N} \vec{f} \end{pmatrix} \\ & = \begin{pmatrix} d_1 & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & d_N \end{pmatrix} f - \begin{pmatrix} \vec{a_1}\\ \vdots \\ \vec{a_N} \end{pmatrix} f \\ &= diag(d_i) f - Af \\ &= (D - A)f \\ &= Lf \end{aligned}$

2.4拉普拉斯算子与拉普拉斯矩阵的关系

再次考虑二维情况，离散化的拉普拉斯算子得到的
$\Delta f = f(x+1, y) + f(x-1, y) + f(x, y+1) + f(x, y-1) - 4f(x, y)$
与图上拉普拉斯矩阵得到的
$\left( \mathcal{L} f \right)(x,y) = 4f(x, y) - \left( f(x+1, y) + f(x-1, y) + f(x, y+1) + f(x, y-1) \right)$
两者只相差一个符号。

3.傅里叶变换

3.1傅里叶变换简要推导

用 $e^{\frac{j \pi x}{L}i}$ 作基， $c_j$ 作因子，表示函数 $f(x)$ ：
$f(x) = \sum_{j=-\infty}^{\infty} c_j e^{\frac{j \pi x}{L}i}.$
其中的因子 $c_j$ 为：
$c_j = \frac{1}{2L} \int_{-L}^{L} f(t) e^{-\frac{j \pi t}{L}i} dt, \qquad -\infty < j <\infty.$
将因子代入有：
$f(x) = \sum_{j=-\infty}^{\infty} \left[ \frac{1}{2L} \int_{-L}^{L} f(t) e^{-\frac{j \pi t}{L}i} dt \right] e^{\frac{j \pi x}{L}i}.$
令 $\xi_j = \frac{\pi j}{L}, \Delta \xi = \frac{\pi}{L}$ ，上面二式改写成：
$\begin{aligned} F_{L}(\xi) &= \frac{1}{2\pi} \int_{-L}^{L} f(t) e^{-i \xi t} dt \\ f(x) &= \sum_{j=-\infty}^{\infty} F_{L}(\xi_j) e^{i \xi t} \Delta \xi. \end{aligned}$
令 $L \rightarrow \infty$ ，将黎曼和转为积分则：
$\begin{aligned} f(x) &= \int_{j=-\infty}^{\infty} \left[ \frac{1}{2\pi} \int_{-\infty}^{\infty} f(t) e^{-i \xi t} dt \right] e^{i \xi t} d \xi. \\ &= \frac{1}{\sqrt{2 \pi}} \int_{j=-\infty}^{\infty} \left[ \frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{\infty} f(t) e^{-i \xi t} dt \right] e^{i \xi t} d \xi. \end{aligned}$

得到傅里叶变换及其逆变换：
$\begin{aligned} \hat{f}(\xi) &= \frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{\infty} f(t) e^{-i \xi t} dt\\ f(x) &= \frac{1}{\sqrt{2 \pi}} \int_{j=-\infty}^{\infty} \hat{f}(\xi) e^{i \xi t} d \xi. \end{aligned}$

3.2离散傅里叶变换

在连续的情况中，因子 $c_j$ 为：
$c_j = \frac{1}{2 \pi} \int_{0}^{2 \pi} f(t) e^{-ijx} dt, \qquad -\infty < j <\infty.$
将其离散化：
$c_j \approx \frac{1}{n} \sum_{k=0}^{n-1} f(x_k) e^{ijx_k}.$
类比，得到离散的傅里叶变换：
$\hat{y}_k = \sum_{j=0}^{n-1} w_{n}^{-kj} y_j,\qquad 0 \leq k \leq n-1,$
其中 $w_n = e^{\frac{2 \pi i}{n}}$ 。

将其写成矩阵形式：
$\begin{pmatrix} \hat{y}_0 \\ \hat{y}_1 \\ \hat{y}_2 \\ \vdots \\ \hat{y}_{n-1} \\ \end{pmatrix} =\begin{pmatrix} 1 & 1 & 1 & \cdots & 1 \\ 1 & w_{n}^{-1} & w_{n}^{-2} & \cdots & w_{n}^{-(n-1)} \\ 1 & w_{n}^{-2} & w_{n}^{-4} & \cdots & w_{n}^{-2(n-1)} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & w_{n}^{-(n-1))} & w_{n}^{-(n-1)} & \cdots & w_{n}^{-(n-1)^2} \\ \end{pmatrix} \begin{pmatrix} y_0 \\ y_1 \\ y_2 \\ \vdots \\ y_{n-1} \\ \end{pmatrix}.$
记
$F_n = \begin{pmatrix} 1 & 1 & 1 & \cdots & 1 \\ 1 & w_{n}^{1} & w_{n}^{2} & \cdots & w_{n}^{(n-1)} \\ 1 & w_{n}^{2} & w_{n}^{4} & \cdots & w_{n}^{2(n-1)} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & w_{n}^{(n-1))} & w_{n}^{(n-1)} & \cdots & w_{n}^{(n-1)^2} \\ \end{pmatrix}.$
即离散傅里叶变换为:
$\vec{\hat{y}} = \bar{F_n} \vec{y}.$

根据
$(\bar{F_n})^{-1} = \frac{1}{n} F_n,$
得到逆离散傅里叶变换为:
$\vec{y} = \frac{1}{n} F_n \vec{\hat{y}}.$

3.3图上傅里叶变换

在傅里叶变换中，使用的基函数 $e^{-iwt}$ 是因为它是拉普拉斯算子的特征函数（满足特征方程）, $w$ 就和特征值有关。

广义的特征方程定义为：
$AV = \lambda V$
其中 $A$ 是一种变换， $V$ 是特征向量或者特征函数（无穷维的向量）， $\lambda$ 是特征值。

$e^{-iwt}$ 满足：
$\Delta e^{-iwt} = \frac{\partial^2}{\partial^2 t} e^{-iwt} = -w^2 e^{-iwt}.$
当然 $e^{-iwt}$ 就是变换 $\Delta$ 的特征函数， $w$ 和特征值密切相关。

$L$ 是拉普拉斯矩阵， $V$ 是其特征向量，自然满足下式：
$LV = \lambda V.$

由此得到图上的傅里叶变换：
$\mathcal{F}[f(\lambda_l)] = \hat{f}(\lambda_l) = \left< f, \vec{u}_l \right>= \sum_{v_i \in V} f(v_i) u_l^{*}(v_i)$
矩阵形式为:
$\begin{aligned} &\text{图上傅里叶变换： } &\hat{f} = U^T f \\ &\text{图上逆傅里叶变换： } &f = U \hat{f} \end{aligned}$

3.4为什么拉普拉斯矩阵的特征向量可以作为傅里叶变换的基？特征值表示频率？

3.4.1为什么拉普拉斯矩阵的特征向量可以作为傅里叶变换的基？

傅里叶变换一个本质理解就是：把任意一个函数表示成了若干个正交函数（由sin,cos 构成）的线性组合。

图卷积神经网络（Graph Convolutional Network）的卷积

图上傅里叶变换也把图上定义的任意向量 $\vec{f}$ ，表示成了拉普拉斯矩阵特征向量的线性组合，即：
$\vec{f} = \sum_{i=0}^{n-1}\hat{f}(\lambda_0) \vec{u}_0.$

为什么graph上任意的向量 $\vec{f}$ 都可以表示成这样的线性组合？
原因是， $\vec{u}_0,\vec{u}_1,\cdots, \vec{u}_{n-1}$ 是图上 $n$ 维空间中的 $n$ 个线性无关的正交向量。

3.4.2怎么理解拉普拉斯矩阵的特征值表示频率？

在图空间上无法可视化展示“频率”这个概念，那么从特征方程上来抽象理解。

因为 $L \mathbb{1}_{n \times 1} = \vec{0}_{n \times 1}$ 可知 $L$ 的最小特征值 $\lambda_0 = 0$ 。

从特征方程的数学理解来看：
$L \vec{u} = \lambda \vec{u}.$
在由图确定的 $n$ 维空间中，越小的特征值 $\lambda_l$ 表明：拉普拉斯矩阵 $L$ 其所对应的基 $\vec{u}_l$ 上的分量、“信息”越少，那么当然就是可以忽略的低频部分了。

其实图像压缩就是这个原理，把像素矩阵特征分解后，把小的特征值（低频部分）全部变成0，PCA降维也是同样的，把协方差矩阵特征分解后，按从大到小取出前K个特征值对应的特征向量作为新的“坐标轴”。

4.GCN卷积

4.1图上卷积

卷积定理 ：
$\mathcal{F} \left[ f_1(t) \star f_2(t) \right] = \mathcal{F} \left[ f_1(t)\right] \odot \mathcal{F} \left[ f_2(t)\right]$
其中 $\star$ 为卷积运算符， $\odot$ 表示Hadamard product（哈达马积），对于两个维度相同的向量、矩阵、张量进行对应位置的逐元素乘积运算。

卷积定理将卷积与傅里叶变换联系起来。由此我们得到了图上的卷积：
$\left( f \star h\right)_G = U \left[ \left(U^T h\right) \odot \left(U^T f\right) \right].$

这里为了后续说明问题的方便，不再使用 $\odot$ 。两向量 $U^T h, U^T f$ 做逐点乘积，等价于把其中一个向量对角化做矩阵乘积：
$\begin{aligned} \left(U^T h\right) \odot \left(U^T f\right) &= \begin{pmatrix} \hat{h}(\lambda_0) \\ \hat{h}(\lambda_1) \\ \vdots \\ \hat{h}(\lambda_{n-1}) \end{pmatrix} \odot \begin{pmatrix} \hat{f}(\lambda_0) \\ \hat{f}(\lambda_1) \\ \vdots \\ \hat{f}(\lambda_{n-1}) \end{pmatrix} \\ &= \begin{pmatrix} \hat{h}(\lambda_0) \\ & \hat{h}(\lambda_1) & & \\ & & \ddots & \\ & & & \hat{h}(\lambda_{n-1}) \end{pmatrix} \begin{pmatrix} \hat{f}(\lambda_0) \\ \hat{f}(\lambda_1) \\ \vdots \\ \hat{f}(\lambda_{n-1}) \end{pmatrix}\\ &= diag(\hat{h}(\lambda_l) ) U^T f. \end{aligned}$

因此用矩阵形式：
$\left( f \star h\right)_G = U \begin{pmatrix} \hat{h}(\lambda_0) \\ & \hat{h}(\lambda_1) & & \\ & & \ddots & \\ & & & \hat{h}(\lambda_{n-1}) \\ \end{pmatrix} U^T f = U diag(\hat{h}(\lambda_l)) U^T f.$

4.2第一代GCN

Spectral Networks and Locally Connected Networks on Graphs中简单粗暴地把 $diag(\hat{h}(\lambda_l))$ 变成卷积核 $diag(\theta_l)$ ，即：
$y_{out} = \sigma \left( U g_{\theta}(\Lambda) U^T x_{in}\right).$

其中 $\sigma(.)$ 是**函数，卷积核 $g_{\theta}(\Lambda)$ 为
$g_{\theta}(\Lambda) = \begin{pmatrix} \theta_0 \\ & \ddots \\ & & \theta_{n-1} \end{pmatrix}.$

第一代的参数方法存在着一些弊端：主要在于：

每次前向传播需要计算 $U,diag(\theta_l), U^T$ 三者的矩阵乘积，计算复杂度为 $\mathcal{O}(n^2)$ 。
卷积核不具有spatial localization。
卷积核需要 $n$ 个参数。

4.3第二代GCN

Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering把 $\hat{h}(\lambda_l)$ 巧妙地设计成了 $\sum_{j=0}^{K} \alpha_j \lambda_{l}^{j}$ ，即：
$\begin{aligned} g_{\theta}(\Lambda) &= \begin{pmatrix} \sum_{j=0}^{K} \alpha_j \lambda_{0}^{j} \\ & \ddots \\ & & \sum_{j=0}^{K} \alpha_j \lambda_{n-l}^{j} \end{pmatrix} \\ &= \sum_{j=0}^{K} \left[ \alpha_j \begin{pmatrix} \lambda_{0}^{j} \\ & \ddots \\ & & \lambda_{n-l}^{j} \end{pmatrix} \right] \\ &= \sum_{j=0}^{K} \alpha_j \Lambda^{j}. \end{aligned}$
利用拉普拉斯矩阵特征值分解的性质 $L^2 = U \Lambda U^T U \Lambda U^T = U \Lambda^2 U^T$ ,进而有:
$\begin{aligned} U g_{\theta}(\Lambda) U^T &= U \left( \sum_{j=0}^{K} \alpha_j \Lambda^{j} \right) U^T \\ & = \sum_{j=0}^{K} \left( \alpha_j U \Lambda^{j} U^T \right)\\ & = \sum_{j=0}^{K} \alpha_j L^{j}. \end{aligned}$

卷积层为：
$y_{out} = \sigma \left( U g_{\theta}(\Lambda) U^T x_{in}\right) = \sigma \left( \sum_{j=0}^{K} \alpha_j L^{j} x_{in}\right).$

第二代卷积核其优点在于在于：

卷积核只需要 $K$ 个参数 $(\alpha_0, \alpha_1, \cdots, \alpha_{n-1})$ ，一般 $K$ 远小于 $n$ 。
不需要再做特征值分解了。计算机复杂仍然是 $\mathcal{O}(n^2)$ 。
卷积核具有很好的spatial localization。特别地， $K$ 就是卷积核的receptive field，也就是说每次卷积会将中心顶点K-hop neighbor上的feature进行加权求和，权系数就是 $\alpha_k$ 。

4.4利用Chebyshev多项式作为卷积核

4.4.1Chebyshev多项式性质

递归定义 $T_k(y) = 2yT_{k-1}(y) - T_{k-2}(y)$
$T_0=1,t_1=y$
$y\in[-1,1]$
$T_k(y) = \cos \left( k \arccos (y) \right)$
$\int_{-1}^{1} \frac{T_l(y) T_m(y)}{\sqrt{1-y^2}} dy = \begin{cases} \frac{\pi}{2} \delta_{l.m} \qquad &\text{if } m,l >0 \\ \pi \qquad &\text{if } m=l=0. \end{cases}$

Every $h \in L^2([-1,1],\frac{dy}{\sqrt{1-y^2}})$ has a convergent (in $L^2$ norm) Chebyshev series
$h(y) = \frac{1}{2} c_0 + \sum_{k=1}^{\infty} c_k T_k (y)$
with Chebyshev coefficients
$c_k = \frac{2}{\pi} \int_{-1}^{1} \frac{T_l(y) T_m(y)}{\sqrt{1-y^2}} dy = \frac{2}{\pi} \int_{0}^{\pi} \cos(k\theta)h(\cos(\theta)) d \theta.$

4.4.2 Chebyshev多项式卷积核

将 $g_{\theta}(\Lambda)$ 用Chebyshev多项式 $T_{k}(x)$ 逼近:
$g_{\theta^{'}}(\Lambda) \approx \sum_{k=0}^{K} \theta_{k}^{'} T_{k}( \tilde{\Lambda} ), \qquad \tilde{\Lambda} = \frac{2}{\lambda_{max}(\Lambda)} \Lambda - I_n$

由 $T_k(y) = \cos \left( k \arccos (y) \right)$ 可以知道Chebyshev多项式的输入必须是在 $[-1,1]$ 之间，所以需要将 $\Lambda$ 做变换为 $\tilde{\Lambda}$ 。

因此得到Chebyshev多项式逼近图上谱卷积为：
$\begin{aligned} g_{\theta^{'}} \star x & \approx U \left( \sum_{k=0}^{K} \theta_{k}^{'} T_{k}( \tilde{\Lambda} ) \right) U^T x \\ & = \sum_{k=0}^{K} \left( U \theta_{k}^{'} T_{k}( \tilde{\Lambda} ) U^T \right) x \\ & = \sum_{k=0}^{K} \theta_{k}^{'} T_{k}\left( U \tilde{\Lambda} U^T \right) ) x \\ & = \sum_{k=0}^{K} \theta_{k}^{'} T_{k}(\tilde{L}) x \end{aligned}$
其中 $\tilde{L} = \frac{2}{\lambda_{max}(L)} L - I_N$ 。

4.5Chebyshev多项式逼近法简化

如果取 $\lambda_{max} \approx 2$ 则有 $\tilde{L} = L - I_N$ 。Chebyshev多项式只取前两项，即 $K = 1$ 有
$\begin{aligned} g_{\theta^{'}} \star x & \approx \left( \theta_{0}^{'} + \theta_{1}^{'} (L - I_N) \right) x \\ & = \left( \theta_{0}^{'} - \theta_{1}^{'} D^{-\frac{1}{2}} A D^{-\frac{1}{2}} \right) x \end{aligned}.$

4.6单参数法

令参数 $\theta_{0}^{'} = - \theta_{1}^{'} = \theta$ ，图上谱卷积又可以简化为
$g_{\theta^{'}} \star x \approx \theta \left( I_N + D^{-\frac{1}{2}} A D^{-\frac{1}{2}} \right) x$

注意 $I_N + D^{-\frac{1}{2}} A D^{-\frac{1}{2}}$ 拥有范围为 $[0,2]$ 的特征值，这将会导致数值不稳定性和梯度爆炸/消失。因此我们介绍下面的归一化技巧(renormalization trick)：
$I_N + D^{-\frac{1}{2}} A D^{-\frac{1}{2}} \rightarrow \tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}}.$
其中 $\tilde{A}=A+I_N,\tilde{D}_{i,i} = \sum_{j}\tilde{A}_{i,j} = \sum_{j} \left( A_{i,j} + (I_N)_{i,j}\right) = D_{i,i} + 1$ 。上式展开为
$\begin{aligned} I_N + D^{-\frac{1}{2}} A D^{-\frac{1}{2}} & \rightarrow \tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} \\ & = (D + I_N)^{-\frac{1}{2}} (A+I_N) (D + I_N)^{-\frac{1}{2}} \\ & = (D + I_N)^{-\frac{1}{2}} A (D + I_N)^{-\frac{1}{2}} + (D + I_N)^{-1} \end{aligned}.$

输入 $X \in \mathbb{R}^{N \times C}$ ， $C$ 为输入的通道数，经过滤波 $\Theta \in \mathbb{R}^{C \times F}$ 得到含有 $F$ 个通道的卷积后结果 $Z \in \mathbb{R}^{N \times F}$ ：
$Z = \tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} X \Theta$

参考文献

从CNN到GCN的联系与区别——GCN从入门到精（fang）通（qi）
Chebyshev多项式作为GCN卷积核
解读三种经典GCN中的Parameter Sharing
【其实贼简单】拉普拉斯算子和拉普拉斯矩阵
拉普拉斯矩阵与拉普拉斯算子的关系
图卷积神经网络(GCN)详解:包括了数学基础(傅里叶，拉普拉斯)
卷积定理
M矩阵
【GCN】论文笔记：SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS
机器学习论文笔记-Semi-Supervised Classification with Graph Convolutional Networks
Spectral Networks and Locally Connected Networks on Graphs
Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering
The Emerging Field of Signal Processing on Graphs
Wavelets on graphs via spectral graph theory
Weimin HanKendall,E. Atkinson.Theoretical Numerical Analysis A Functional Analysis Framework Third Edition[M].Springer:New York,2009:167.