介绍
网络是复杂系统的基本工具,即使有的网络是稀疏的,依然会有的边趋向于出现在小的聚集结构中,这种聚集结构可以解释为局部演化过程。例如社会网络中聚集结构的出现是源于三角形,其中两个人共有一个朋友,则更可能成为朋友,形成闭三角。聚集系数是度量网络中的三角形数量,定义为三节点中闭合的比例。然而聚集系数是有限制的,只涉及三角形,更多节点的高阶结构也是重要的,四节点就反映词组和蛋白质网络的结构,但是高阶结构的聚集系数是没有的。这里根据测量高阶结构中闭合的比例提出高阶聚集系数。
首先考虑二节点团,找到与之相连的第三条边和节点,原来的聚集系数就是这种三节点结构中闭合的比例C=6|K3||W|(1)
相应可以定义局部聚集系数C(u)=2|K3(u)||W(u)|(2)
平均聚集系数C¯¯¯¯=1|V˜|∑u∈V˜C(u)(3)
类似的,由l节点团扩展到l+1节点,则Cl=(l2+l)|Kl+1||Wl|(4)
局部聚集系数Cl(u)=l|Kl+1(u)||Wl(u)|(5)
平均聚集系数C¯¯¯¯l=1|V˜l|∑u∈V˜lCl(u)(6)
|Wl(u)|=|Kl(u)|(du−l+1)(7)
其中duS 节点u的度,替换公式(5)则有
Cl(u)=l|Kl+1(u)|(du−l+1)|Kl(u)|(8)
通过枚举所有l+1和l节点的团,能计算局部l th−order的聚集系数,复杂度取决于枚举的时间,使用Chiba和Nishizeki算法,复杂度是O(lal−2m),其中m是边数,a是一种边密度。a可能与m−−√一样大,若l为常数,则是多项式时间,在至少l节点上确定是否有一个团是NPC问题。对于全局聚集系数,则有|Wl|=∑u∈V|Wl(u)|。
局部聚集系数可以解释成从所有以节点u为中心的wedge中随机挑选的一个是闭合的概率Cl(u)=P[w∈Kl+1(u)](10)
定义1-hop邻居图N1(u),节点u周围相邻的节点组成N1(u)的节点,原来的这些节点之间的连边组成N1(u)的边。于是公式(8)为l|Kl[N1(U)]|(du−l+1)|Kl−1[N1(u)]|(11)
其中Kk[N1(u)]记为N1(u)中有k节点团的个数。如果从N1(u)随机选l−1节点团,然后再从剩下的点选一个节点v,这l个点组成l节点团的概率就是Cl(u)=P[K∪{v}∈Kl[N1(u)]](12)
Cl−1(u)⋅Cl(u)是l−1节点团和两个随机挑选节点组成l+1节点团的概率,则∏lj=2Cj(u)=|Kl[N1(u)]|(dul)(13)

对于任意固定l>3,0≤Cl(u)≤C2(u)−−−−−√(14)
1.存在有限图G使下界成立,当C2(u)∈[0,l−2l−1]。
2.存在有限图G使上界成立,当C2(u)∈[0,1]。
0≤Cl(u)是显然的,当N1(u)如上图2所示时,C2(u)=l−2l−1,通过删去一些边可使范围在[0,l−2l−1]。定义δl[N1(u)]=|Kl[N1(u)]|(dul)(15)记为N1(u)的l−clique密度,由文献中的定理则有δl[N1(u)]≤[δl−1[N1(u)]]l/(l−1)
δ[N1(u)]≤[δ2[N1(u)]](l−1)/2
再由公式(8)知
Cl(u)≤[δl−1[N1(u)]]1l−1≤δ2[N1(u)]−−−−−−−−√=C2(u)−−−−−√
若N1(u)由c个节点的clique和b个孤立节点组成,当l=2时有
Cl(u)=(c2)(c+b2)=(c−1)c(c+b−1)(c+b)→(cc+b)2
当3≤l≤c时有
Cl(u)=l(cl)(c+b−l+1)(cl−1)=c−l+1c+b−l+1→cc+b
当du→∞时有C2(u)∈[0,1],且Cl(u)→C2(u)−−−−−√。
现在来看高阶聚类系数在随机图模型的情况,其中每条边都有独立的概率p,为了使图中至少有一个l−wedge,这里假设l比较小,设p和n都比较大,则对于任意ϵ>0,clique的节点数量小于(2+ϵ)log n/log(1/p)。在Gn,p模型中,当且仅当l−clique中有l−1条边出现并有另外一节点与之相邻时,则形成l−wedge,这l−1条边的存在概率与pl−1有关。
令G为随机图模型Gn,p,对于常数l,
(1) EG[Cl]=pl−1
(2) EG[Cl(u)|Wl(u)>0]=pl−1
(3) EG[C¯¯¯¯l]=pl−1
E[Cl]=EG[EWl[Cl|Wl]] =E[EWl[1|Wl|∑w∈WlP[w is closed]]] =EG[EWl[1|Wl|∑w∈Wlpl−1]] =EG[pl−1] =pl−1