Abstract
本文研究了在低维向量空间中嵌入超大规模信息网络的问题
动机: 现有的大多数图嵌入方法都不适用于通常包含数百万个节点的真实信息网络。本文提出了一种新的网络嵌入方法,称之为“LINE”, 它适用于任意类型的信息网络:无向、有向和/或加权。
代码获取:https://github.com/tangjianpku/LINE
亮点
LINE 算法对所有的**一阶近似(节点6和7,有边连接)和二阶近似节点(节点5和6,有相似的邻居)**对进行了概率建模,利用二阶近似的考虑有效地补充了一阶近似的稀疏性,更好地保持了网络的全局结构。
最后,整合一阶和二阶节点相似性,引入一个目标函数,使得学习到的节点 embedding分布更加的均衡平滑。
paper贡献
- 提出了一种新的网络嵌入模型,称为“线”,它适用于任意类型的信息网络,并且易于扩展到数百万个节点。它有一个精心设计的目标函数,保留了一阶和二阶近似。
- 提出了一种优化目标的边缘采样算法。该算法克服了经典随机梯度下降的局限性,提高了推理的有效性和效率。
- 在现实世界的信息网络上进行广泛的实验。实验结果证明了本文提出的直线模型的有效性和有效性。
模型
注:本文只考虑非负权重的边
一阶近似(只适用于无向图)
对于每个无向边(i,j),他们的连接可能性:
经验概率:
其中:
KL-divergence :两个分布之间的距离:
化简后最小化该目标函数即可:
二阶近似(适用于有向图和无向图)
二阶近似假设共享多个连接到其他顶点的顶点彼此相似。在这种情况下,每个顶点也被视为一个特定的“上下文”,并且假设在“上下文”上具有相似分布的顶点是相似的。因此,每个顶点都扮演两个角色:**顶点本身和其他顶点的特定“上下文”。**作者引入两个向量 u和u’,分别表示顶点V作为顶点时和作文上下文时的表示。
对于每个有向边(i,j),首先定义由顶点V产生上下文V的可能性:
经验概率:
d为顶点i的出度
KL-divergence化简优化:得到d维向量来表示每个顶点
优化
Negative sampling
由于计算2阶相似度时,softmax函数的分母计算需要遍历所有顶点,这是非常低效的,论文采用了负采样优化的技巧,目标函数变为:
K是负边的个数。负采样概率:
d
更新:
Edge Sampling
注意到我们的目标函数在log之前还有一个权重系数w,在使用梯度下降方法优化参数时,w会直接乘在梯度上。如果图中的边权方差很大,则很难选择一个合适的学习率。若使用较大的学习率那么对于较大的边权可能会引起梯度爆炸,较小的学习率对于较小的边权则会导致梯度过小。
一种方法则是从原始的带权边中进行采样,每条边被采样的概率正比于原始图中边的权重,这样既解决了学习率的问题,又没有带来过多的存储开销。
这里的采样算法使用的是Alias算法