1. 绪论
在同构信息网络中的相似度量算法:
personalized PageRank (P-PageRank),SimRank,SCAN
这些算法往往忽视了对象和联系的不同类型。
由于不同类型的对象和联系带有不同的语义信息,因此很难将这些算法直接应用于异构信息网络中。
为了体现异构信息网络中的语义信息,本文介绍了基于元路径的相似度量框架。
目前有一些方法是基于框架的:
· random walk used in P-PageRank
· pairwise random walk used in P-PageRank
· P-PageRank
· SimRank
提出了一种PathSim算法(meta path-based similarity,基于元路径的相似度算法)
2. 相关定义
Heterogeneous Information Network 异构信息网络
network schema 网络模式
meta path 元路径
path instance 路径实例
commuting matrix 交换矩阵
3. 相似度计算方式
1)path count:计算节点和之间的路径实例数
2)random walk:计算从节点到节点的元路径中,实例路径以为起点,为终点的概率总和
3)pairwise random walk
以上三种方式存在的不足:更倾向于使高度可见或者高度集中的对象获得更高的相似度
4. PathSim算法
性质:
1)对称性:
2)自身最大性:
3)平衡可见性:
对于对称元路径的相似度计算
5. 单元路径的在线查找过程
(1) 直接的baseline算法
step1. 通过“向量-矩阵”运算得到
step2. 对于每个,计算相似度
step3. 对计算得到的从大到小进行排序,获得的前k个相似节点
不足:当n非常大的时候,“向量-矩阵”运算会变得非常费时。
(2) PathSim-baseline算法
改进:在step1之前,首先获得与相似的候选集:
根据交换矩阵,找到与非正交的节点
其中,
分析:
对于单个,
平均时间复杂度:,其中表示候选对象中不为0的元素平均个数
不足:
当候选对象很多时,需要花费大量的时间进行计算
“向量-矩阵”运算最多将执行次
(3) Co-Clustering Based Pruning 剪枝算法
第(2)种算法的不足: