Spectral Clustering
前面的课程说到了 community detection 并介绍了两种算法。这次来说说另外一类做社区聚类的算法,谱聚类。这种算法一般分为三个步骤
pre-processing: 构建一个描述图结构的矩阵
decomposition: 通过特征值和特征向量分解矩阵
grouping: 基于分解后的矩阵以及点的 representation 进行聚类
在介绍具体操作前我们先了解几个概念
Graph Partitioning
图的划分就是将节点分到不同的组内,如果分为两个组就是二分。划分的目的其实就是找社区,那如何判断一个划分的质量呢?回顾之前说到的社区的特点,即社区内部连接丰富而社区间连接稀疏。因此我们希望我们的划分能最大化每个划分内的连接并最小化划分间的连接数。我们用割这个概念来描述不同划分间的连接数 c u t ( A , B ) = ∑ i ∈ A , j ∈ B w i j cut(A,B)=\sum\limits_{i\in A,j\in B}w_{ij} c u t ( A , B ) = i ∈ A , j ∈ B ∑ w i j 。对于无权图这里的 w w w 就是 { 0 , 1 } \{0,1\} { 0 , 1 } 。但这个定义并不完美,因为这样并不能保证划分均匀。例如,一个图中有一个节点的度为 1 1 1 那么只要把这个节点和其余节点分开就能保证 cut 为 1 1 1 。因此我们将划分后不同组内节点的度纳入考虑就能较为全面的评估一个划分的好坏了,即 Conductance,其中 v o l vol v o l 是划分内所有节点的度之和。
ϕ ( A , B ) = c u t ( A , B ) min ( v o l ( A ) , v o l ( B ) ) \phi(A,B)=\frac{cut(A,B)}{\min(vol(A),vol(B))} ϕ ( A , B ) = min ( v o l ( A ) , v o l ( B ) ) c u t ( A , B )
然而直接最小化 conductance 是个 NP-hard 的问题。那接下来就进入今天的正题:谱聚类。
首先复习一下线性代数,给定一个图的邻接矩阵 A A A ,那 i i i 行表示节点 i i i 的所有出度,j j j 列表示节点 j j j 的所有入度。在无向图上出度入度一样,因此 A T = A A^T=A A T = A ,。考虑无向图,那 A x Ax A x 代表什么?A x Ax A x 的输出是一个向量,而向量的每一个元素是矩阵的行和向量 x x x 的内积。如果将 x x x 看作图中每个节点的分类标签,那得到的结果向量的每个元素代表了每个节点所有邻接节点的标签之和。
而特征值的定义是 A x = λ x Ax=\lambda x A x = λ x ,而谱聚类就是研究根据特征值 λ \lambda λ 升序排序后的特征向量。(这里规定 Λ = { λ 1 , λ 2 , . . . , λ n } \Lambda=\{\lambda_1,\lambda_2,...,\lambda_n\} Λ = { λ 1 , λ 2 , . . . , λ n } 且 λ 1 ≤ λ 2 ≤ . . . ≤ λ n \lambda_1\leq\lambda_2 \leq...\leq\lambda_n λ 1 ≤ λ 2 ≤ . . . ≤ λ n )
d d d -Regular Graph
现在给出一个特殊的连通图 G G G ,图中所有节点的度都为 d d d 。然后令 x = ( 1 , 1 , . . . , 1 ) x=(1,1,...,1) x = ( 1 , 1 , . . . , 1 ) 那么 A x = ( d , d , . . . , d ) = λ x Ax=(d,d,...,d)=\lambda x A x = ( d , d , . . . , d ) = λ x ,因此 λ = d \lambda=d λ = d 。可以证明 d d d 是最大的特征值。
证明:
因为我们希望特征值为 d d d ,那对向量 x x x 必须有 x i = x j x_i=x_j x i = x j 。也就是说 x = c ⋅ ( 1 , 1 , . . . , 1 ) x=c\cdot(1,1,...,1) x = c ⋅ ( 1 , 1 , . . . , 1 )
那么对于任意不满足 c ⋅ ( 1 , 1 , . . . , 1 ) c\cdot(1,1,...,1) c ⋅ ( 1 , 1 , . . . , 1 ) 的向量 y y y ,说明并非所有节点都为 1 1 1 。令不为 1 1 1 的节点集为 S S S ,显然并非所有节点都在 S S S 中。
这样一来必定存在节点 j j j ,其邻接节点不属于 S S S 。这样一来在节点 j j j 这里得到的内积值必定严格小于 d d d
因此 y y y 不是特征向量,且 d d d 是最大的特征值
以上是针对连通图。如果图不连通而是有两个部分,且每部分都是 d d d -regular 的。我们做类似处理,不过对 x x x 的定义会适当改变。
{ x ′ = ( 1 , . . . , 1 , 0 , . . . , 0 ) T , A x ′ = ( d , . . . , d , 0 , . . . , 0 ) T x ′ ′ = ( 0 , . . . , 0 , 1 , . . . , 1 ) T , A x ′ ′ = ( 0 , . . . , 0 , d , . . . , d ) T \begin{cases}
x'=(1,...,1,0,...,0)^T, Ax'=(d,...,d,0,...,0)^T \\
x''=(0,...,0,1,...,1)^T, Ax''=(0,...,0,d,...,d)^T
\end{cases} { x ′ = ( 1 , . . . , 1 , 0 , . . . , 0 ) T , A x ′ = ( d , . . . , d , 0 , . . . , 0 ) T x ′ ′ = ( 0 , . . . , 0 , 1 , . . . , 1 ) T , A x ′ ′ = ( 0 , . . . , 0 , d , . . . , d ) T
这样一来对应的特征值仍然是 λ = d \lambda=d λ = d ,但这个最大特征值对应了两个特征向量。
– 为什么不继续用 x = ( 1 , 1 , . . . , 1 ) T x=(1,1,...,1)^T x = ( 1 , 1 , . . . , 1 ) T ?
– 你试试 A x = λ x Ax=\lambda x A x = λ x 对得上不?
如下图稍微推广一下,第一种不连通情况下,最大和第二大的特征值相等。第二种情况属于存在明显社区结构,此时图其实是连通的,但最大和第二大的特征值差别不大。而 λ n − 1 \lambda_{n-1} λ n − 1 能告诉我们两个社区的划分情况。
那为什么说 λ n − 1 \lambda_{n-1} λ n − 1 能告诉我们划分情况?首先我们知道特征向量是互相垂直的,即两个特征向量的内积为 0 0 0 。因此在已知 x n = ( 1 , 1 , . . . , 1 ) T x_n=(1,1,...,1)^T x n = ( 1 , 1 , . . . , 1 ) T 的情况下,x n x n − 1 = 0 x_nx_{n-1}=0 x n x n − 1 = 0 说明 ∑ i x n − 1 [ i ] = 0 \sum_ix_{n-1}[i]=0 ∑ i x n − 1 [ i ] = 0 。因此,在 x n = 1 x_{n=1} x n = 1 内必定有正有负。那我们就可以依此将图中的节点分为两组了。(这是大致思路,还有很多细节需要考虑)
那考虑无向图,我们定义以下几个矩阵
邻接矩阵 A A A
对称
n n n 个实数特征值
特征向量为实数且互相垂直
度矩阵 D D D
拉普拉斯矩阵 L = D − A L=D-A L = D − A
半正定
特征值为非负实数
特征向量为实数且互相垂直
对所有 x x x 有 x T L x = ∑ i j L i j x i x j ≥ 0 x^TLx=\sum_{ij}L_{ij}x_ix_j\geq 0 x T L x = ∑ i j L i j x i x j ≥ 0
这里有个定理:对任意对称矩阵 M M M 有
λ 2 = min x : x T w 1 = 0 x T M x x T x \lambda_2=\min\limits_{x:x^Tw_1=0}\frac{x^TMx}{x^Tx} λ 2 = x : x T w 1 = 0 min x T x x T M x
w 1 w_1 w 1 是最小特征值对应的特征向量。分析一下这个表达式
x T L x = ∑ i , j = 1 n L i j x i x j = ∑ i , j = 1 n ( D i j − A i j ) x i x j = ∑ i D i i x i 2 − ∑ ( i , j ) ∈ E 2 x i x j = ∑ ( i , j ) ∈ E ( x i 2 + x j 2 − 2 x i x j ) = ∑ ( i , j ) ∈ E ( x i − x j ) 2 \begin{aligned}
x^TLx&=\sum\limits_{i,j=1}^nL_{ij}x_ix_j=\sum\limits_{i,j=1}^n(D_{ij}-A_{ij})x_ix_j \\
&=\sum_iD_{ii}x_i^2-\sum_{(i,j)\in E}2x_ix_j \\
&=\sum_{(i,j)\in E}(x_i^2+x_j^2-2x_ix_j) \\
&=\sum_{(i,j)\in E}(x_i-x_j)^2
\end{aligned} x T L x = i , j = 1 ∑ n L i j x i x j = i , j = 1 ∑ n ( D i j − A i j ) x i x j = i ∑ D i i x i 2 − ( i , j ) ∈ E ∑ 2 x i x j = ( i , j ) ∈ E ∑ ( x i 2 + x j 2 − 2 x i x j ) = ( i , j ) ∈ E ∑ ( x i − x j ) 2
因为度矩阵 D D D 是对角矩阵,所以上面才会化简为 D i i D_{ii} D i i 。 因为这里的求和是针对每条边,而每条边有两个端点,因此第三步是 x i 2 + x j 2 x_i^2+x_j^2 x i 2 + x j 2 。化简了定理里的表达式能看出什么?λ 2 \lambda_2 λ 2 是特征向量里各元素的差的平方(距离)的最小值。这与我们找最小割目的不谋而合,即最小化各部分间的连接数。
这样得到的 x x x 叫 Fiedler vector。然而直接用离散的标签 { − 1 , 1 } \{-1,1\} { − 1 , 1 } 太硬核了,我们考虑允许 x x x 为满足约束的实数。即 ∑ i x i = 0 , ∑ i x i 2 = 1 \sum_ix_i=0, \sum_ix_i^2=1 ∑ i x i = 0 , ∑ i x i 2 = 1
其实这里偷换了概念。表达式里应该将 x x x 替换为 y y y 。因为分析的时候我们将 y y y 视为划分后的标签,而特征值 x 2 x_2 x 2 只是这个标签 y y y 的最优解而已。
这里提到了 approx. guarantee,如果将网络划分为 A A A 和 B B B ,那可以保证 λ 2 \lambda_2 λ 2 和 conductance β \beta β 存在关系 λ 2 ≤ 2 β \lambda_2\leq2\beta λ 2 ≤ 2 β (证明略,自己看 slide 吧)
根据这种方法得到的结果还是不错的。如果网络中包含了不止一个划分,我们可以递归地使用上述算法,即先划分为两部分,然后对两部分分别再用使用一次或多次谱聚类。除此之外还可以使用 x 3 , x 4 , . . . x_3,x_4,... x 3 , x 4 , . . . 等特征向量一起进行聚类,这样一来相当于将每个点表示为 k k k 维的向量进行聚类。一般来说多用几个特征向量能避免信息丢失,得到更好的聚类结果。那这个 k k k 怎么选呢?看 Δ k = ∣ λ k − λ k − 1 ∣ \Delta_k=|\lambda_k-\lambda_{k-1}| Δ k = ∣ λ k − λ k − 1 ∣ 。选令 eigengap 最大的 k k k 就好。(注意!!这里的特征值又是按降序 排列的了)1
Motif-Based Spectral Clustering
上面的谱聚类是基于边实现的,如果我们想针对某种特定的结构进行划分呢?自然而然的想到之前介绍的 motif。基于 motif 也就是说在一个划分内特定的 motif 普遍出现。类似对边的划分,我们定义 v o l M ( S ) vol_M(S) v o l M ( S ) 为在划分 S S S 里的 motif 的端点个数,ϕ ( S ) = # ( m o t i f s c u t ) v o l M ( S ) \phi(S)=\frac{\#(motifs\ cut)}{vol_M(S)} ϕ ( S ) = v o l M ( S ) # ( m o t i f s c u t ) 。当然这也是 NP-hard 的。
走流程,首先我们需要定义矩阵 W ( M ) W^{(M)} W ( M ) 。这里矩阵内每个元素代表了对应边被几个 motif 共享。然后是度矩阵 D ( M ) = ∑ j W i j ( M ) D^{(M)}=\sum_jW_{ij}^{(M)} D ( M ) = ∑ j W i j ( M ) 和拉普拉斯矩阵 L ( M ) = D ( M ) − W ( M ) L^{(M)}=D^{(M)}-W^{(M)} L ( M ) = D ( M ) − W ( M ) 。求特征值和特征向量后取第二小的特征值对应的特征向量 x 2 x_2 x 2 。按升序对 x 2 x_2 x 2 各元素大小排序,并依次通过计算 motif conductance 来找最佳的划分。(前 k k k 小的元素为 x 2 ( 1 ) , x 2 ( 2 ) , . . . , x 2 ( k ) x_2^{(1)},x_2^{(2)},...,x_2^{(k)} x 2 ( 1 ) , x 2 ( 2 ) , . . . , x 2 ( k ) ,然后计算 conductance。取令 conductance 最小的 k k k 值)2
当然这个算法也只是一个近似,它能保证 ϕ M ( S ) ≤ 4 ϕ M ∗ \phi_M(S)\leq4\sqrt{\phi_M^*} ϕ M ( S ) ≤ 4 ϕ M ∗
虽然选最大的 gap 是 make sense 的。但要说个所以然还是有点讲不清楚,需要再理解理解。 ↩︎
这个方法叫 sweep procedure,不同于之前以 0 0 0 为界的划分。那 motif-based 能用之前的方法吗?sweep procedure 有什么优势吗?基于边的谱聚类能用 sweep procedure 吗? ↩︎