1. 绪论

在同构信息网络中的相似度量算法:
personalized PageRank (P-PageRank),SimRank,SCAN
这些算法往往忽视了对象和联系的不同类型。
由于不同类型的对象和联系带有不同的语义信息,因此很难将这些算法直接应用于异构信息网络中。
为了体现异构信息网络中的语义信息,本文介绍了基于元路径的相似度量框架。
目前有一些方法是基于框架的:
· random walk used in P-PageRank
· pairwise random walk used in P-PageRank
· P-PageRank
· SimRank
提出了一种PathSim算法(meta path-based similarity,基于元路径的相似度算法)

2. 相关定义

Heterogeneous Information Network 异构信息网络
network schema 网络模式
meta path 元路径PP
path instance 路径实例pp
commuting matrix 交换矩阵MM

3. 相似度计算方式

1)path count:计算节点xxyy之间的路径实例数s(x,y)=p:pPs(x,y)=|p:p\in P|
2)random walk:计算从节点xx到节点yy的元路径中,实例路径ppxx为起点,yy为终点的概率总和 s(x,y)=pPProb(p)s(x,y)=\sum_{p\in P}Prob(p)
3)pairwise random walk
以上三种方式存在的不足:更倾向于使高度可见或者高度集中的对象获得更高的相似度

4. PathSim算法

性质:
1)对称性:s(xi,xj)=s(xj,xi)s(x_i,x_j)=s(x_j,x_i)
2)自身最大性:s(xi,xj)[0,1],s(xi,xi)=1s(x_i,x_j)\in[0,1],s(x_i,x_i)=1
3)平衡可见性:

对于对称元路径的相似度计算

5. 单元路径的在线查找过程

(1) 直接的baseline算法

step1. 通过“向量-矩阵”运算得到M(i,:)=MP(i,:)MPTM(i,:)=M_P(i,:)M^T_P
step2. 对于每个xiA1x_i\in A_1,计算相似度s(i,j)=2M(i,j)M(i,i)+M(j,j)s(i,j)=\frac{2M(i,j)}{M(i,i)+M(j,j)}
step3. 对计算得到的s(i,j)s(i,j)从大到小进行排序,获得xix_i的前k个相似节点
不足:当n非常大的时候,“向量-矩阵”运算会变得非常费时。

(2) PathSim-baseline算法

改进:在step1之前,首先获得与xix_i相似的候选集CandidateSetCandidateSet
根据交换矩阵MPM_P,找到与xix_i非正交的节点xjx_j
xjCandidateSet=UykMP.neighbors(xi)MPT.neighbors(yk)x_j\in CandidateSet={U_{y_k\in M_P.neighbors(x_i)}M_P^T.neighbors(y_k)}
其中,MP.neighbors(xi)={ykMP(xi,yk)0}M_P.neighbors(x_i)=\{y_k|M_P(x_i,y_k)\neq 0\}
【论文阅读】PathSim: Meta Path-Based Top-K Similarity Search in Heterogeneous Information Networks
分析:
对于单个xix_i
平均时间复杂度:O(d)O(d),其中dd表示候选对象中不为0的元素平均个数

不足:
当候选对象很多时,需要花费大量的时间进行计算
“向量-矩阵”运算最多将执行mm

(3) Co-Clustering Based Pruning 剪枝算法

第(2)种算法的不足

【论文阅读】PathSim: Meta Path-Based Top-K Similarity Search in Heterogeneous Information Networks

相关文章:

  • 2021-10-11
  • 2021-06-26
  • 2021-10-06
  • 2021-11-17
  • 2021-07-20
  • 2021-11-08
  • 2021-11-27
  • 2021-11-27
猜你喜欢
  • 2022-12-23
  • 2021-11-27
  • 2021-10-14
  • 2021-07-17
  • 2021-09-04
  • 2021-05-22
  • 2021-11-17
相关资源
相似解决方案