Weisfeiler-Lehman(WL)算法

Weisfeiler-Lehman 算法

Weisfeiler-Lehman(WL)算法

The Weisfeiler-Lehman Test of Isomorphism
The General Weisfeiler-Lehman Kernels

1.The Weisfeiler-Lehman Kernel Framework
2.The Weisfeiler-Lehman Subtree Kernel

多图上计算The Weisfeiler-Lehman Subtree Kernel
THE RAMON-GARTNER SUBTREE KERNEL

3.The Weisfeiler-Lehman Edge Kernel
4.The Weisfeiler-Lehman Shortest Path Kernel

Weisfeiler-Lehman(WL)算法

The Weisfeiler-Lehman Test of Isomorphism

图核使用来自 $Weisfeiler-Lehman$ 同构检验的概念，更具体地讲是其一维变体，也称为“朴素顶点修饰”
该算法的关键思想是通过对相邻节点的节点标签排序后的集合来扩展节点标签，并将这些扩展后的标签压缩为新的短标签
$alphabet$ $Σ$ 必须足够大才能使 $f$ 具内射性。对于两个图， $|Σ| = 2n$ 个满足条件。

Weisfeiler-Lehman(WL)算法

$（a）$ 网络中每个节点有一个 $label$ ，如图中的彩色的 $1，2，3，4，5$
$（b）$ 标签扩展：做一阶广度优先搜索，即只遍历自己的邻居。比如在图 $（a）$ 网络 $G$ 中原 $(5)$ 号节点，变成 $(5,234)$ ，这是因为原 $（5）$ 节点的一阶邻居有 $2，3和4$
$（c）$ 标签压缩：仅仅只是把扩展标签映射成一个新标签，如 $5,234 => 13$
$（d）$ 压缩标签替换扩展标签
$（e）$ 数标签：比如在 $G$ 网络中，含有 $1$ 号标签 $2$ 个，那么第一个数字就是 $2$ 。这些标签的个数作为整个网络的新特征

算法：
假设要测试同构的两张图为 $G$ 和 $G’$ ，那么在结点 $v$ 的第 $i$ 次迭代里，算法都分别做了四步处理：标签复合集定义、复合集排序、标签压缩和重标签
Weisfeiler-Lehman(WL)算法

$WL\ test$ 的复杂度是 $O(hm)$ ，其中h为 $iteration$ 次数， $m$ 是一次 $iteration$ 里 $multiset$ 的个数

一维的 $Weisfeiler-Lehman$ 如下所示：
Weisfeiler-Lehman(WL)算法

稳定后，统计两张图的 $label$ 的分布，如果分布相同，则一般认为两张图时同构的。

注意：我们可以发现， $WL\ test$ 方法的步骤和 $GNNs$ 具有异曲同工之妙，都是通过不断聚合邻居信息，得到节点的新表示，这也是为什么 $Kipf$ 在 $2017$ 年 $GCN$ 的论文中单独讨论和 $GCN$ 和 $WL test$ 关系的原因。而正是这种统一性，才使得本文能以 $WL\ test$ 为基础来分析 $GNNs$ 框架。

The General Weisfeiler-Lehman Kernels

1.The Weisfeiler-Lehman Kernel Framework

$Weisfeiler-Lehman\ algorithm$ 对图 $G$ 和 $G'$ 的结点进行重标签时，只有当两个结点 $v$ 和 $v'$ 有相同的标签复合集，它们生成的新标签才一样。
因此，我们可以认为对所有图进行标签压缩和重标签时，标签映射函数 $f$ 都是一样的，定义为 $r((V, E, l_i)) = (V, E, l_{(i+1)})$ ，其中， $V$ 是图 $G$ 的结点集， $E$ 是图 $G$ 的边集， $l_i$ 和 $l_{(i+1)}$ 分别是 $Weisfeiler-Lehman\ algorithm$ 在第 $i$ 次和第 $i+1$ 次迭代时生成的标签集。

$G_0$ 是原始图， $G_1 = r(G_0)$ 是第一次重新贴标产生的图，依此类推.

性质
1.半正定矩阵的行列式是非负的。
2.两个半正定矩阵的和是半正定的。
3. $G_i = r * G_{(i-1)} = (r^2) * G_{(i-2)} = .... = (r^i) * G_0 = (r^i) * G$
证明

**请注意，**可以将非负实权重 $α_i$ 放在 $k(G_i，G_i')，i = {0,1,...,h}$ 上，以获得更一般的 $Weisfeiler-Lehman$ 核定义：

2.The Weisfeiler-Lehman Subtree Kernel

Weisfeiler-Lehman(WL)算法
$c_i(G，σ_{ij})$ 是图形 $G$ 中字母 $σ_{ij}$ 的出现次数。

也就是说，Weisfeiler-Lehman子树内核在两个图中计数共同的原始标签和压缩标签

假设基本内核 $k$ 是一个函数，用于计算两个图中的匹配节点标签对：

Weisfeiler-Lehman(WL)算法

多图上计算The Weisfeiler-Lehman Subtree Kernel

算法：

在 $N$ 个图和 $h$ 次迭代的情况下， $Σ$ 大小为 $Nn(h + 1)$ 。

举例：

THE RAMON-GARTNER SUBTREE KERNEL

具有子树高度 $h$ 的 $Ramon-Gartner$ 子树内核通过迭代比较它们的邻域来比较图 $G =(V,E,l)$ 和 $G_0 =(V_0,E_0,l)$ 中的所有节点对：
Weisfeiler-Lehman(WL)算法

$M(v，v')$ 是 $v$ 和 $v'$ 邻域的子集的精确匹配集合。 $M(v，v')$ 的每个元素 $R$ 是来自 $v∈V$ 和 $v_0∈V_0$ 的邻域的一组节点对，因此每对中的节点具有相同的标记，并且不包含多于一对的节点。因此，从直观上讲， $k_{RG}$ 迭代地考虑来自 $G$ 的节点 $v$ 和来自 $G_0$ 的 $v_0$ 的邻居之间两个相同标记节点的所有匹配 $M(v，v')$ 。使参数 $λ_v$ 和 $λ_{v'}$ 等于单个参数λ会导致每个模式加权 $λ$ ，并提高到模式中节点数的幂。

LINK TO THE WEISFEILER-LEHMAN SUBTREE KERNEL
Weisfeiler-Lehman(WL)算法

3.The Weisfeiler-Lehman Edge Kernel

$The\ Weisfeiler-Lehman\ edge\ kernel$ 是 $the\ Weisfeiler-Lehman\ kernel\ framework$ 的另一个实例。对于具有未加权边的图，我们考虑对两个图中具有相同标记的端点（事件节点）的匹配边对进行计数的基本内核。换句话说，基本内核定义为
Weisfeiler-Lehman(WL)算法
其中 $φ_E(G)$ 是对 $(a，b)$ ， $a,b∈Σ$ 的出现次数的向量，它们表示 $G$ 中边的端点的有序标签. $(a，b)$ 和 $(a_0，b_0)$ 分别表示边 $e$ 和 $e_0$ 的端点的有序标签，以及 $Dirac\ kernel$ 的 $δ，k_E$ 可以等效地表示为 $∑_{e∈E} ∑_{e_0∈E'}δ(a，a_0) δ(b，b_0)$ 。如果边缘通过分配权重的函数 $w$ 加权，则基本核 $k_E$ 可以定义为 $∑_{e∈E} ∑_{e_0∈E'}δ(a，a_0) δ(b，b_0)k_w(w(e)，w((e_0))$ ,其中 $k_w$ 是比较边缘权重的内核。
Weisfeiler-Lehman(WL)算法

4.The Weisfeiler-Lehman Shortest Path Kernel

在这里，我们使用节点标记的最短路径内核作为基础内核。
Weisfeiler-Lehman(WL)算法

Weisfeiler-Lehman Graph Kernels

https://github.com/BorgwardtLab/GraphKernels

https://static.aminer.cn/misc/pdf/20190419.pdf
https://github.com/ysig/GraKeL