图表示学习入门2——Node2Vec

《图表示学习入门1》中，讨论了为什么要进行图（graph）表示，以及两种解决图表示问题的思路。这篇把Node2Vec来作为线性化思路的一个典型来讨论。

如果你了解Word2Vec的话，这个就太简单了。

代码实现：（https://github.com/leichaocn/graph_representation_learning）

文章目录

核心想法
准备节点序列

BFS与DFS
Biased Random Walk

用节点序列来训练Node2Vec

优化目标
神经网络结构
Embedding的获得

指标评价
总结
参考文献

核心想法

回想文本中Word2Vec中抽取单词Embedding的方式，是怎么做的？

准备句子语料，用一个词预测周围词来组成无监督训练的样本对。
用这些样本来训练一个2层的Word2Vec网络，抽出隐层权重作为Embedding。

那我们只要准备好节点序列，是否也可以用Word2Vec的思路来抽取节点Embedding？

但是我们需要首先给节点创造一些序列，或者说语料“句子”。

如果清楚了这一点，我们的想法就大致如下：

准备节点序列

图（graph）结构中，按照节点的连接关系生成节点序列，很容易。然而如果任意生成序列，也会导致序列的意义坏掉。正如一个随机生成的文本肯定是糟糕的语料，一个随意生成的节点序列也必然糟糕。

所以，我们需要针对每个节点，适度地有中心的产生语料。
用节点序列来训练Node2Vec

以skip-gram（中心词预测周围词）的方式，生成样本对，来训练Node2Vec网络，最终从隐层权重中抽取出Embedding，自带一定的相似度信息。

显然，这是一种无监督的特征学习，只需要利用现成的图（graph）结构准备好节点序列就可以了。

准备节点序列

如我们刚才讨论的，我们的节点序列必须围绕一些节点，稍微带点”中心思想“，而不能瞎走。

BFS与DFS

这是两种耳熟能详的常见做法：

广度优先搜索（BFS）

覆盖度较好，但是太局部（local）。
深度优先搜索（DFS）

搜索深度较好，但是太全局（global），过于远的邻居对表征帮助不大。

图1.广度优先搜索与深度优先搜索的对比 (source)

然而，这两种做法都有点极端，本着中庸之道的精神，综合BFS和DFS，请出我们的主角：带偏随机游走（Biased random walk）。

Biased Random Walk

它相当于"插值"BFS和DFS，用两个参数 $p$ ， $q$ 来调节两者的比例，Biased也正是这个意思。

图表示学习入门2——Node2Vec

图2.带偏随机游走的核心思想 (source)

带偏随机游走做法是：要构造一个节点序列，如果我们从节点 $u$ 开始，

首先在节点 $u$ 周边直接相邻的节点里抽样一个点，构成序列[ $u$ , $s_1$ ]；
以该序列最后两个元素（ $u$ , $s_1$ ）来查找下一个节点，需要先进行步骤3的权重设置；
给节点倒数第二个节点（ $s_1$ ）的所有邻接点的设置权重：往前走的节点置为 $1/q$ ，往回走的节点置为 $1/p$ ，其他节点置为1；
然后以步骤3设置的权重，挑出一个节点，假设是 $w$ ，此时序列为[ $u$ , $s_1$ , $w$ ]；
以该序列最后两个元素（ $s_1$ , $w$ ）来查找下一个节点，需要先进行步骤3的权重设置。
如此往复地扩展节点。最终生成了一个随机性的节点序列。

生成的结果在图3中进行了举例，有助于理解。

可能有两个小点需要注意：

至于怎么判断往前走还是往回走呢

往前走即等于最后一个节点，往回走即不是最后一个节点且与最后一个节点没有相连边
最终生成的序列很有可能有一个节点重复出现多次的情况

无论走的方向是往前或往回或平行，都是随机的，因此很可能会往前走了又走回来了。这没关系，因为这都是由起始节点及图（graph）结构造成的，我们给它多产生一些序列即可，即丰富的“语料”。

用节点序列来训练Node2Vec

通过之前的操作，我们已经准备好了节点序列，按照skip-gram思想，即对于输入的句子，我们用中心词预测周边词们；对于准备好的节点序列串，我们也用某个中心节点预测周边节点们。

注意：这里的周边，指的是节点序列里某元素的周边，而不是图（graph）的某元素的周边。用 $N_S(i)$ 表示基于策略 $S$ （本文指）生成的序列，节点 $i$ 的周围节点的集合，如图3所示。

图表示学习入门2——Node2Vec

图3.节点序列及周围节点集合生成示意图

优化目标

假设节点 $i$ 的one-hot向量为 $u_i$ ，在一串序列中，它周围节点one-hot向量为 $u_j$ ，这些 $u_j$ 组成的集合为 $N_S(u_i)$ 。

$u_i$ 对自己周围的预测概率 $P(N_S(u_i)|u_i)$ ，通过引入朴素贝叶斯假设，可以简化为：
$P(N_S(u_i)|u_i)=\prod_{n_j\in N_s(u_i)} P(n_j|u_i)$
我们希望这个 $P(N_S(u_i)|u_i)$ 尽可能地大，根据公式，现在的问题是如何求 $P(n_j|u_i)$ 。

这个好办，我们只要学一个函数 $f$ ，输入 $u_i$ ，输出对节点 $u_j$ 的预测概率 $P(n_j|u_i)$ 。

而这个函数 $f$ 正是我们要训练的神经网络。

这下我们就清楚了，可以定义如图3所示的这个优化目标：

图表示学习入门2——Node2Vec

图4.node2vec的学习目标

神经网络结构

下图中的神经网络即实现这个 $f$ ，只要输入一个样本 $u_i$ ，前向传播一次，从向量 $\vec{a}^2$ 的元素中，即可获得每一个标签 $n_j$ 对应的 $P(n_j|u_i)$ 。

图表示学习入门2——Node2Vec

图5.Node2Vec神经网络的结构

在训练中， $P(n_j|u_i)$ 将被纳入我们的目标函数进行寻优。

具体的训练涉及细节较多，我们将在Word2Vec中详细讨论。

Embedding的获得

待网络训练结束，只要输入节点 $i$ 的one-hot向量 $u_i$ ，前向传播到隐层，生成 $\vec{z}^1$ ，即为节点 $i$ 的Embedding。

更简便的方式是，由于训练时都是用one-hot向量训练，其实，只需要把对应 $u_i$ 里为1的那个元素，所对应的权重序列拿出来，即为节点 $i$ 的Embedding。

这部分，将在Word2Vec中详细讨论。

指标评价

由于是无监督训练，同时获取的Embedding也只是节点的特征表示，因此需要结合具体项目表现来对Node2vec结果进行评价。

例如节点分类项目，训出Embedding，再结合节点已标注的类别标签，训练一个分类器，根据分类结果的指标对Embedding进行间接评价。需要注意的是，节点序列生成策略、Node2Vec网络的隐层维度、分类器的选型和参数，均影响分类结果的指标。

总结

通过合适的策略生成节点序列，当做训练Node2Vec的“语料”。
训练Node2Vec网络，即以Word2Vec的思路训练神经网络，抽出隐层权重作为对应节点的Embedding。

参考文献

[1] Jure Leskovec, 《Graph Representation Learning》

[2] Jure Leskovec, 《Representation Learning on Networks》

http://snap.stanford.edu/proj/embeddings-www/

参考文献

[1] Jure Leskovec, 《Graph Representation Learning》

[2] Jure Leskovec, 《Representation Learning on Networks》

http://snap.stanford.edu/proj/embeddings-www/

（如有错误及表述不清，请不吝反馈）