Attributed Network Embedding for Learning in a Dynamic Environment 在2017年发表于CIKM
提出了DANE,一种将网络拓扑与节点特征相结合的动态网络表征学习(Dynamic NRL)方法
论文连接:https://arxiv.xilesou.top/pdf/1706.01860
目录
现实网络:网络结构会随时间而不断演化(节点/边的增加或删除);节点有着丰富的属性,且属性值也会发生变化。
动态属性网络(Dynamic Attributed Networks):网络结构或节点属性都会随时间改变的网络
动态属性网络的嵌入是一项艰巨的任务,因为:
- 尽管网络拓扑和节点属性是两种不同的数据表示,但其本质上是相关的;另外,原始数据可能是充满噪声的或甚至是不完整的。因此,寻找一种抗噪声的共识(consensus)嵌入来捕捉它们各自的属性与相关性非常重要。
- 在每个time step上都从头开始应用离线嵌入方法非常耗时,并且无法捕捉及时出现的模式(不是很理解这句话,放上原文:cannot seize the emerging patterns timely)。因此,设计一种可以迅速给出嵌入表示的高效在线算法很有必要。
对此,提出了一种用于动态属性网络的新的嵌入框架DANE(Dynamic Attributed Networks Embedding):
- 提出了一种离线嵌入方法作为基本模型,从网络结构和节点属性两个方面保留节点的近似度,以实现共识嵌入表示
- 为了在网络结构和节点属性发生改变时及时获得更新的嵌入表示,提出了一种在线模型,基于矩阵扰动理论更新共识嵌入。
1 常用符号
表示属性网络
在时刻 t 的 n 个节点的集合
每个节点有 d 维属性
2 整体架构
作者假设节点的个数是不会随时间发生变化的,但也提到了该方法可以扩展到有节点增加/删除的场景。
DANE可以分解为以下两个子问题:
- DANE在时刻 t 的离线模型:输入网络拓扑
和节点属性
,输出所有节点的属性网络嵌入
- DANE在时刻 t+1 的在线模型:输入网络拓扑
、节点属性
、时刻 t 的嵌入结果
,输出所有节点的属性网络嵌入
整体入图所示:
3 DANE模型
3.1 离线模型
核心思想:先学习网络拓扑和节点属性各自的嵌入向量,再结合两者学习共识嵌入。
- 网络拓扑和节点属性以不同的节点属性表示,且都可能是不完整的或有噪声的
- 两种表示的可以互补达到共识嵌入,以实现更好的嵌入,而噪声的存在会削弱共识嵌入的学习
- 在学习共识嵌入之前,需削弱噪声
(1)各自的嵌入向量
a 对于网络拓扑:
:邻接矩阵
:对角矩阵
:Laplacian矩阵
根据谱图理论,将网络中的每个节点映射到 k 维嵌入空间(,k远远小于n),网络中的噪声会大大降低。
嵌入的合理选择(目标函数)是最小化损失函数:
,保证了相连的函数在嵌入空间中相聚很近。
此时,这个问题归结为了广义特征问题,
为特征值
对应的特征向量。
网络结构的k维嵌入即为从 开始的前 k 个特征向量,即
b 对于节点属性
以类似的方式减少节点属性中的噪声
首先归一化每个节点的属性,获得consine相似度矩阵
得到对应的前k个特征向量作为对应的节点属性的嵌入
由此,解决了噪声问题
(2)共识向量的学习
- 利用
和
学习共识向量
- 为捕捉二者的相互依赖性使其互补,应最大化其相关性,或最小化其分歧性
- 试图寻找两个投影向量
和
,满足投影之后
和
的相关性最大,等价于解决下述优化问题:
-
和
的最优解对应于以下广义特征问题,取广义特征问题的前
个特征向量,并连接在一起得到了
- 最终的共识嵌入表示为
3.2 在线模型
- 动态属性网络在两个time step间的演化是平滑的
- 用
和
表示网络结构扰动和节点属性扰动
- 对角矩阵和Laplacian矩阵也会平滑的演化
- 离线模型集中于找到广义特征问题中最小特征值对应的特征向量
- 在线模型的核心思想为:找到一种有效的方式来个更新最大特征向量与对应的特征值
以网络拓扑为例:
- 根据矩阵扰动理论:网络结构在新的time step的嵌入有公式:
- 对于特定的特征对儿
有
- 问题则变成了如何利用
和
计算
特征值的改变
特征向量的改变
整体更新过程如算法1所示:
节点属性的过程类似
3.3 计算复杂性分析
- T个time step上的在线embedding算法的时间复杂性为
- T个time step上的离线embedding算法的时间复杂性为
4 实验
4.1 数据集
- BlogCatalog
- Flickr
- Epinions
- DBLP
4.2 实验设定
任务:无监督网络聚类、有监督节点分类
Baseline:DeepWalks, LINE, DANE-N, DANE-A, CCA, LCMF, DANE-O
4.3 无监督 网络聚类 实验结果
4.4 有监督 节点分类 实验结果
4.5 效率
不同Time Step的运行时间
不同嵌入维度的加速率