目录

一、什么是聚类

1.1 聚类的定义

聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。

1.2 聚类和分类的区别

  • 聚类(Clustering):是指把相似的数据划分到一起,具体划分的时候并不关心这一类的标签,目标就是把相似的数据聚合到一起,聚类是一种无监督学习(Unsupervised Learning)方法。
  • 分类(Classification):是需要标注数据是某种具体的类型,通过训练数据集获得一个分类器,再通过分类器去预测未知数据的过程,分类是一种监督学习(Supervised Learning)方法。

1.3 聚类的一般过程

  1. 数据准备:特征标准化和降维
  2. 特征选择:从最初的特征中选择最有效的特征,并将其存储在向量中
  3. 特征提取:通过对选择的特征进行转换形成新的突出特征
  4. 聚类:基于某种距离函数进行相似度度量,获取簇
  5. 聚类结果评估:分析聚类结果,如SSE

1.4 数据对象间的相似度度量

对于数值型数据,可以使用下表中的相似度度量方法。

相似度度量准则 相似度度量函数
Euclidean 距离 d(x,y)=i=1n(xiyi)2d( x, y)=\sqrt{\sum_{i=1}^{n}(x_i-y_i)^2}
Manhattan 距离 $d( x, y)=\sum_{i=1}^{n}\left
Chebyshev 距离 $d( x, y)=\max_{i=1,2,…,n}^{n}\left
Minkowski 距离 d(x,y)=[i=1n(xiyi)p]1pd( x, y)=[\sum_{i=1}^{n}(x_i-y_i)^p]^ {\frac{1}{p}}

Minkowski距离就是$ Lp 范数(p≥1$),而 Manhattan 距离、Euclidean距离、Chebyshev距离分别对应 $p=1,2,∞ $时的情形。

1.5 cluster之间的相似度度量

除了需要衡量对象之间的距离之外,有些聚类算法(如层次聚类)还需要衡量cluster之间的距离 ,假设$ C_i C_j$ 为两个 cluster,则前四种方法定义的 $C_i $和 CjC_j 之间的距离如下表所示:

相似度度量准则 相似度度量函数
Single-link D(Ci,Cj)=minxCi,yCjd(x,y)D(C_i,C_j)= \min_{x\subseteq C_i, y\subseteq C_j}d( x, y)
Complete-link D(Ci,Cj)=maxxCi,yCjd(x,y)D(C_i,C_j)= \max_{x\subseteq C_i, y\subseteq C_j}d( x, y)
UPGMA $D(C_i,C_j)= \frac{1}{\left
WPGMA -
  • Single-link定义两个cluster之间的距离为两个cluster之间距离最近的两个点之间的距离,这种方法会在聚类的过程中产生链式效应,即有可能会出现非常大的cluster
  • Complete-link定义的是两个cluster之间的距离为两个``cluster之间距离最远的两个点之间的距离,这种方法可以避免链式效应`,对异常样本点(不符合数据集的整体分布的噪声点)却非常敏感,容易产生不合理的聚类
  • UPGMA正好是Single-linkComplete-link方法的折中,他定义两个cluster之间的距离为两个cluster之间所有点距离的平均值
  • 最后一种WPGMA方法计算的是两个 cluster 之间两个对象之间的距离的加权平均值,加权的目的是为了使两个 cluster 对距离的计算的影响在同一层次上,而不受 cluster 大小的影响,具体公式和采用的权重方案有关。

二、数据聚类方法

数据聚类方法主要可以分为划分式聚类方法(Partition-based Methods)基于密度的聚类方法(Density-based methods)层次化聚类方法(Hierarchical Methods)等。

聚类方法综述

2.1 划分式聚类方法

划分式聚类方法需要事先指定簇类的数目或者聚类中心,通过反复迭代,直至最后达到"簇内的点足够近,簇间的点足够远"的目标。经典的划分式聚类方法有k-means及其变体k-means++bi-kmeanskernel k-means等。

2.1.2 k-means算法

经典的k-means算法的流程如下:

  1. 创建kk个点作为初始质心(通常是随机选择)
  2. 当任意一个点的簇分配结果发生改变时
    1. 对数据集中的每个数据点
      1. 对每个质心
        1. 计算质心与数据点之间的距离
      2. 将数据点分配到距其最近的簇
    2. 对每个簇,计算簇中所有点的均值并将均值作为质心

经典k-means源代码,下左图是原始数据集,通过观察发现大致可以分为4类,所以取k=4k=4,测试数据效果如下右图所示。
聚类方法综述

聚类方法综述

看起来很顺利,但事情并非如此,我们考虑k-means算法中最核心的部分,假设xi(i=1,2,,n)x_i(i=1,2,…,n)是数据点,μj(j=1,2,,k)\mu_j(j=1,2,…,k)是初始化的数据中心,那么我们的目标函数可以写成
mini=1nminj=1,2,...,kxiμj2 \min\sum_{i=1}^{n} \min \limits_{j=1,2,...,k}\left |\left | x_i -\mu_j\right | \right |^2
这个函数是非凸优化函数,会收敛于局部最优解,可以参考证明过程。举个????,μ1=[1,1],μ2=[1,1]\mu_1=\left [ 1,1\right ] ,\mu_2=\left [ -1,-1\right ],则
z=minj=1,2xiμj2 z=\min \limits_{j=1,2}\left |\left | x_i -\mu_j\right | \right |^2
该函数的曲线如下图所示
聚类方法综述

可以发现该函数有两个局部最优点,当时初始质心点取值不同的时候,最终的聚类效果也不一样,接下来我们看一个具体的实例。

聚类方法综述

在这个例子当中,下方的数据应该归为一类,而上方的数据应该归为两类,这是由于初始质心点选取的不合理造成的误分。而kk值的选取对结果的影响也非常大,同样取上图中数据集,取k=2,3,4k=2,3,4,可以得到下面的聚类结果:

聚类方法综述

一般来说,经典k-means算法有以下几个特点:

  1. 需要提前确定kk
  2. 对初始质心点敏感
  3. 对异常数据敏感

2.1.2 k-means++算法

k-means++是针对k-means中初始质心点选取的优化算法。该算法的流程和k-means类似,改变的地方只有初始质心的选取,该部分的算法流程如下

  1. 随机选取一个数据点作为初始的聚类中心
  2. 当聚类中心数量小于kk
    1. 计算每个数据点与当前已有聚类中心的最短距离,用D(x)D(x)表示,这个值越大,表示被选取为下一个聚类中心的概率越大,最后使用轮盘法选取下一个聚类中心

k-means++源代码,使用k-means++对上述数据做聚类处理,得到的结果如下

聚类方法综述

2.1.3 bi-kmeans算法

一种度量聚类效果的指标是SSE(Sum of Squared Error),他表示聚类后的簇离该簇的聚类中心的平方和,SSE越小,表示聚类效果越好。 bi-kmeans是针对kmeans算法会陷入局部最优的缺陷进行的改进算法。该算法基于SSE最小化的原理,首先将所有的数据点视为一个簇,然后将该簇一分为二,之后选择其中一个簇继续进行划分,选择哪一个簇进行划分取决于对其划分是否能最大程度的降低SSE的值。

该算法的流程如下:

  1. 将所有点视为一个簇
  2. 当簇的个数小于kk
    1. 对每一个簇
      1. 计算总误差
      2. 在给定的簇上面进行k-means聚类(k=2k=2)
      3. 计算将该簇一分为二之后的总误差
    2. 选取使得误差最小的那个簇进行划分操作

bi-kmeans算法源代码,利用bi-kmeans算法处理上节中的数据得到的结果如下图所示。

聚类方法综述

这是一个全局最优的方法,所以每次计算出来的SSE值肯定也是一样的,我们和前面的k-meansk-means++比较一下计算出来的SSE

序号 k-means k-means++ bi-kmeans
1 2112 120 106
2 388 125 106
3 824 127 106
agv 1108 124 106

可以看到,k-means每次计算出来的SSE都较大且不太稳定,k-means++计算出来的SSE较稳定并且数值较小,而bi-kmeans每次计算出来的SSE都一样(因为是全局最优解)并且计算的SSE都较小,说明聚类的效果也最好。

2.2 基于密度的方法

k-means算法对于凸性数据具有良好的效果,能够根据距离来讲数据分为球状类的簇,但对于非凸形状的数据点,就无能为力了,当k-means算法在环形数据的聚类时,我们看看会发生什么情况。

聚类方法综述

从上图可以看到,kmeans聚类产生了错误的结果,这个时候就需要用到基于密度的聚类方法了,该方法需要定义两个参数ε\varepsilonMM,分别表示密度的邻域半径和邻域密度阈值。DBSCAN就是其中的典型。

2.2.1 DBSCAN算法

首先介绍几个概念,考虑集合X={x(1),x(2),...,x(n)}X=\left \{x^{(1)},x^{(2)},...,x^{(n)}\right \}ε\varepsilon表示定义密度的邻域半径,设聚类的邻域密度阈值为MM,有以下定义:

  • ε\varepsilon邻域(ε\varepsilon-neighborhood)

Nε(x)={yXd(x,y)<ε} N_{\varepsilon }(x)=\left \{y\in X|d(x, y) < \varepsilon \right \}

  • 密度(desity)
    xx的密度为
    ρ(x)=Nε(x) \rho (x)=\left | N_{\varepsilon }(x)\right |

  • 核心点(core-point)

xXx\in X,若ρ(x)M\rho (x) \geq M,则称xxXX的核心点,记XX中所有核心点构成的集合为XcX_c,记所有非核心点构成的集合为XncX_{nc}

  • 边界点(border-point)

xXncx\in X_{nc},且yX\exists y\in X,满足
yNε(x)Xc y\in N_{\varepsilon }(x) \cap X_c
xxε\varepsilon邻域中存在核心点,则称xxXX的边界点,记XX中所有的边界点构成的集合为XbdX_{bd}

此外,边界点也可以这么定义:若xXncx\in X_{nc},且xx落在某个核心点的ε\varepsilon邻域内,则称xxXX的一个边界点,一个边界点可能同时落入一个或多个核心点的ε\varepsilon邻域。

  • 噪声点(noise-point)

xx满足
xX,xXcxXbd x\in X,x \notin X_{c}并且 x \notin X_{bd}
则称xx为噪声点。

如下图所示,设M=3M=3,则A为核心点,B、C是边界点,而N是噪声点。

聚类方法综述

该算法的流程如下:

  1. 标记所有对象为unvisited
  2. 当有标记对象时
    1. 随机选取一个unvisited对象pp
    2. 标记pp为visited
    3. 如果pp的$\varepsilon 邻域内至少有M$个对象,则
      1. 创建一个新的簇CC,并把pp放入CC
      2. NNpp的$\varepsilon 邻域内的集合,对N中的每个点p’$
        1. 如果点pp'是unvisited
          1. 标记pp'为visited
          2. 如果pp'的$\varepsilon 邻域至少有M个对象,则把这些点添加到N$
          3. 如果pp'还不是任何簇的成员,则把pp'添加到CC
      3. 输出CC
    4. 否则标记pp为噪声

构建ε\varepsilon邻域的过程可以使用kd-tree进行优化,循环过程可以使用Numba、Cython、C进行优化DBSCAN源代码,使用该节一开始提到的数据集,聚类效果如下
聚类方法综述

聚类的过程示意图

聚类方法综述

当设置不同的ε\varepsilon时,会产生不同的结果,如下图所示
聚类方法综述

当设置不同的MM时,会产生不同的结果,如下图所示
聚类方法综述
一般来说,DBSCAN算法有以下几个特点:

  1. 需要提前确定ε\varepsilonMM
  2. 不需要提前设置聚类的个数
  3. 对初值选取敏感,对噪声不敏感
  4. 对密度不均的数据聚合效果不好

2.2.2 OPTICS算法

DBSCAN算法中,使用了统一的ε\varepsilon值,当数据密度不均匀的时候,如果设置了较小的ε\varepsilon值,则较稀疏的cluster中的节点密度会小于MM,会被认为是边界点而不被用于进一步的扩展;如果设置了较大的ε\varepsilon值,则密度较大且离的比较近的cluster容易被划分为同一个cluster,如下图所示。

聚类方法综述

  • 如果设置的ε\varepsilon较大,将会获得A,B,C这3个cluster
  • 如果设置的ε\varepsilon较小,将会只获得C1、C2、C3这3个cluster

对于密度不均的数据选取一个合适的ε\varepsilon是很困难的,对于高维数据,由于维度灾难(Curse of dimensionality),ε\varepsilon的选取将变得更加困难。

怎样解决DBSCAN遗留下的问题呢?

The basic idea to overcome these problems is to run an algorithm which produces a special order of the database with respect to its density-based clustering structure containing the information about every clustering level of the data set (up to a “generating distance” ε\varepsilon), and is very easy to analyze.

即能够提出一种算法,使得基于密度的聚类结构能够呈现出一种特殊的顺序,该顺序所对应的聚类结构包含了每个层级的聚类的信息,并且便于分析。

OPTICS(Ordering Points To Identify the Clustering Structure, OPTICS)实际上是DBSCAN算法的一种有效扩展,主要解决对输入参数敏感的问题。即选取有限个邻域参数εi(0εiε)\varepsilon _i( 0 \leq\varepsilon_{i} \leq \varepsilon) 进行聚类,这样就能得到不同邻域参数下的聚类结果。

在介绍OPTICS算法之前,再扩展几个概念。

  • 核心距离(core-distance)

样本xXx∈X,对于给定的ε\varepsilonMM,使得xx成为核心点的最小邻域半径称为xx的核心距离,其数学表达如下
cd(x)={UNDEFINED,Nε(x)<Md(x,NεM(x)),Nε(x)M cd(x)=\left\{\begin{matrix} UNDEFINED, \left | N_{\varepsilon }(x)\right |< M\\ d(x,N_{\varepsilon }^{M}(x)), \left | N_{\varepsilon }(x)\right | \geqslant M \end{matrix}\right.

其中,Nεi(x)N_{\varepsilon }^{i}(x)表示在集合Nε(x)N_{\varepsilon }(x)中与节点xxii近邻的节点,如Nε1(x)N_{\varepsilon }^{1}(x)表示Nε(x)N_{\varepsilon }(x)中与xx最近的节点,如果xx为核心点,则必然会有cd(x)εcd(x) \leq\varepsilon

  • 可达距离(reachability-distance)

x,yXx,y∈X,对于给定的参数ε\varepsilon和MMyy关于xx的可达距离定义为
rd(y,x)={UNDEFINED,Nε(x)<Mmax{cd(x),d(x,y)},Nε(x)M rd(y,x)=\left\{\begin{matrix} UNDEFINED, \left | N_{\varepsilon }(x)\right |< M\\ \max{\{cd(x),d(x,y)\}}, \left| N_{\varepsilon }(x)\right | \geqslant M \end{matrix}\right.
特别地,当xx为核心点时,可以按照下式来理解rd(x,y)rd(x,y)的含义
rd(x,y)=min{η:yNη(x)Nη(x)M} rd(x,y)=\min\{\eta:y \in N_{\eta}(x) 并且 \left|N_{\eta}(x)\right| \geq M\}
rd(x,y)rd(x,y)表示使得**“xx为核心点"且"yyxx直接密度可达”**同时成立的最小邻域半径。

可达距离的意义在于衡量yy所在的密度,密度越大,他从相邻节点直接密度可达的距离越小,如果聚类时想要朝着数据尽量稠密的空间进行扩张,那么可达距离最小是最佳的选择。

举例,下图中假设M=3M=3,半径是εε。那么PP点的核心距离是d(1,P)d(1,P),点2的可达距离是d(1,P)d(1,P),点3的可达距离也是d(1,P)d(1,P),点4的可达距离则是d(4,P)d(4,P)的距离。

聚类方法综述

OPTICS源代码,算法流程如下:

  1. 标记所有对象为unvisited,初始化order_list为空
  2. 当有标记对象时
    1. 随机选取一个unvisited对象ii
    2. 标记ii为visited,插入结果序列order_list中
    3. 如果iiε\varepsilon邻域内至少有MM个对象,则
      1. 初始化seed_list种子列表
      2. 调用insert_list(),将邻域对象中未被访问的节点按照可达距离插入队列seeld_list中
      3. 当seed_list列表不为空
        1. 按照可达距离升序取出seed_list中第一个元素jj
        2. 标记jj为visited,插入结果序列order_list中
        3. 如果jjε\varepsilon邻域内至少有MM个对象,则
          1. 调用insert_list(),将邻域对象中未被访问的节点按照可达距离插入队列seeld_list中

算法中有一个很重要的insert_list()函数,这个函数如下:

  1. ii中所有的邻域点kk
  2. 如果kk未被访问过
    1. 计算rd(k,i)rd(k,i)
    2. 如果rk=UNDEFINEDr_k=UNDEFINED
      1. rk=rd(k,i)r_k=rd(k,i)
      2. 将节点kk按照可达距离插入seed_list中
    3. 否则
      1. 如果 rd(k,i)<rkrd(k,i)<r_k
      2. 更新rkr_k的值,并按照可达距离重新插入seed_list中

该算法最终获取知识是一个输出序列,该序列按照密度不同将相近密度的点聚合在一起,而不是输出该点所属的具体类别,如果要获取该点所属的类型,需要再设置一个参数ε(εε)\varepsilon'(\varepsilon' \leq \varepsilon)提取出具体的类别。这里我们举一个例子就知道是怎么回事了。

随机生成三组密度不均的数据,我们使用DBSCANOPTICS来看一下效果。

聚类方法综述

聚类方法综述

OPTICS算法输出序列的过程:

聚类方法综述

可见,OPTICS第一步生成的输出序列较好的保留了各个不同密度的簇的特征,根据输出序列的可达距离图,再设定一个合理的ε\varepsilon',便可以获得较好的聚类效果。

2.3 层次化聚类方法

前面介绍的几种算法确实可以在较小的复杂度内获取较好的结果,但是这几种算法却存在一个链式效应的现象,比如:A与B相似,B与C相似,那么在聚类的时候便会将A、B、C聚合到一起,但是如果A与C不相似,就会造成聚类误差,严重的时候这个误差可以一直传递下去。为了降低链式效应,这时候层次聚类就该发挥作用了。

聚类方法综述

层次聚类算法 (hierarchical clustering) 将数据集划分为一层一层的 clusters,后面一层生成的 clusters 基于前面一层的结果。层次聚类算法一般分为两类:

  • Agglomerative 层次聚类:又称自底向上(bottom-up)的层次聚类,每一个对象最开始都是一个 cluster,每次按一定的准则将最相近的两个 cluster 合并生成一个新的 cluster,如此往复,直至最终所有的对象都属于一个 cluster。这里主要关注此类算法。
  • Divisive 层次聚类: 又称自顶向下(top-down)的层次聚类,最开始所有的对象均属于一个 cluster,每次按一定的准则将某个 cluster 划分为多个 cluster,如此往复,直至每个对象均是一个 cluster

聚类方法综述

另外,需指出的是,层次聚类算法是一种贪心算法(greedy algorithm),因其每一次合并或划分都是基于某种局部最优的选择。

2.3.1 Agglomerative算法

给定数据集 X={x(1),x(2),...,x(n)}X=\left \{x^{(1)},x^{(2)},...,x^{(n)}\right \}Agglomerative层次聚类最简单的实现方法分为以下几步:

  1. 初始时每个样本为一个 cluster,计算距离矩阵 DD,其中元素DijD_{ij}为样本点DiD_iDjD_j 之间的距离;
  2. 遍历距离矩阵 DD,找出其中的最小距离(对角线上的除外),并由此得到拥有最小距离的两个 cluster 的编号,将这两个 cluster 合并为一个新的 cluster 并依据 cluster距离度量方法更新距离矩阵DD(删除这两个 cluster 对应的行和列,并把由新 cluster 所算出来的距离向量插入 DD中),存储本次合并的相关信息;
  3. 重复 2 的过程,直至最终只剩下一个 cluster

Agglomerative算法源代码,可以看到,该 算法的时间复杂度为 O(n3)O(n^3) (由于每次合并两个 cluster 时都要遍历大小为 O(n2)O(n^2)的距离矩阵来搜索最小距离,而这样的操作需要进行n1n−1 次),空间复杂度为O(n2)O(n^2) (由于要存储距离矩阵)。

聚类方法综述

上图中分别使用了层次聚类中4个不同的cluster度量方法,可以看到,使用single-link确实会造成一定的链式效应,而使用complete-link则完全不会产生这种现象,使用average-linkward-link则介于两者之间。

2.4 聚类方法比较

算法类型 适合的数据类型 抗噪点性能 聚类形状 算法效率
kmeans 数值型 较差 球形 很高
k-means++ 数值型 一般 球形 较高
bi-kmeans 数值型 一般 球形 较高
DBSCAN 数值型 较好 任意形状 一般
OPTICS 数值型 较好 任意形状 一般
Ag glomerative 混合型 较好 任意形状 较差

三、参考文献

[1] 李航.统计学习方法

[2] Peter Harrington.Machine Learning in Action/李锐.机器学习实战

[3] https://www.zhihu.com/question/34554321

[4] T. Soni Madhulatha.AN OVERVIEW ON CLUSTERING METHODS

[5] https://zhuanlan.zhihu.com/p/32375430

[6] http://heathcliff.me/聚类分析(一):层次聚类算法

[7] https://www.cnblogs.com/tiaozistudy/p/dbscan_algorithm.html

[8] https://blog.csdn.net/itplus/article/details/10089323

[9] Mihael Ankerst.OPTICS: ordering points to identify the clustering structure

相关文章:

  • 2022-01-07
  • 2021-05-31
  • 2021-10-27
  • 2021-09-18
  • 2022-01-01
  • 2021-11-19
  • 2022-03-07
  • 2021-05-22
猜你喜欢
  • 2022-12-23
  • 2021-09-25
  • 2021-07-29
  • 2022-02-26
  • 2021-10-01
  • 2021-12-30
  • 2021-08-13
相关资源
相似解决方案