斯坦福机器学习笔记（六）——K-Means聚类算法

前言

K-Means聚类算法的手写Python代码请移步：利用python实现K-Means聚类算法。同时本篇博客的PDF笔记请移步：K-Means聚类算法。

K-Means算法理论

在聚类问题中，指定一个训练集 ${x^{(1)}, \dots, x^{(m)}}$ ，我们想要将数据分组为几个有凝聚力的“集群”。在这里，通常 $x^{(i)} \in R^{n}$ ；但是和监督学习问题不同，K-Means聚类算法属于无监督学习算法，因此标签 $y^{(i)}$ 没有给定。
首先，我们先定义距离函数：

\begin{aligned} (1) & J (c, μ) = \sum_{i = 1}^{m} {‖ x^{(i)} - μ_{c^{(i)}} ‖}^{2} \end{aligned}

其中，

c^{(i)}

表示训练数据

x^{(i)}

对应的聚类标签，

μ

代表聚类质心数组。那么，距离函数计算的是每组训练数据

x^{(i)}

与其对应的聚类质心

μ_{c^{(i)}}

之间距离的平方和。因此K-Means算法的核心思想就是寻找合适的聚类质心，使得训练数据集尽可能靠近聚类质心。因此K-Means聚类算法的主要任务就是：

\begin{aligned} (2) & μ = \arg min_{J} J (c, μ) = \arg min_{J} \sum_{i = 1}^{m} {‖ x^{(i)} - μ_{c^{(i)}} ‖}^{2} \end{aligned}

因此，我们定义如下最大似然函数：

\begin{aligned} (3) & ℓ (c, μ) = \sum_{j = 1}^{k} \log J (c, μ_{j}) \\ (4) & \begin{matrix} = \end{matrix} \sum_{j = 1}^{k} \log {[\sum_{i = 1}^{m} {‖ x^{(i)} - μ_{c^{(i)}} ‖}^{2}]}^{1 {c^{(i)} == j}} \\ (5) & \begin{matrix} = \end{matrix} \sum_{j = 1}^{k} 1 {c^{(i)} == j} \log \sum_{i = 1}^{m} {‖ x^{(i)} - μ_{c^{(i)}} ‖}^{2} \end{aligned}

那么我们对上述最大似然函数求导并令其为0有：

\begin{aligned} (6) & \frac{\partial ℓ}{\partial μ_{j}} = 1 {c^{(i)} == j} \frac{- 2 \sum_{i = 1}^{m} (x^{(i)} - μ_{c^{(i)}})}{\sum_{i = 1}^{m} {‖ x^{(i)} - μ_{c^{(i)}} ‖}^{2}} = 0 \end{aligned}

那么我们可以求得：

\begin{aligned} (7) & μ_{j} = \frac{\sum_{i = 1}^{m} 1 {c^{(i)} == j} x^{(i)}}{\sum_{i = 1}^{m} 1 {c^{(i)} == j}} \end{aligned}

因此K-Means聚类算法的具体流程为：

\begin{aligned} (8) & 1. I n i t i a l i z e c l u s t e r c e n t r o i d s μ_{1}, \dots, μ_{k} \in R^{n} r a n d o m l y . \\ (9) & 2. R e p e a t u n t i l c o n v e r g e n c e : { \\ (10) & \begin{matrix}  \end{matrix} F o r e v e r y i, s e t \\ (11) & \begin{matrix}  \end{matrix} c^{(i)} := a r g \underset{j}{m i n} {‖ x^{(i)} - μ_{j} ‖}^{2} \\ (12) & \begin{matrix}  \end{matrix} F o r e a c h j, s e t \\ (13) & \begin{matrix}  \end{matrix} μ_{j} := \frac{\sum_{i = 1}^{m} 1 {c^{(i)} == j} x^{(i)}}{\sum_{i = 1}^{m} 1 {c^{(i)} == j}} \\ (14) & \begin{matrix}  \end{matrix}} \end{aligned}

上述算法的内循环重复执行两个步骤：首先分配每个训练样例

x^{(i)}

到最近的聚类质心

μ_{j}

，接着将每个聚类质心

μ_{j}

移动到附近聚类点的平均值。具体地，K-Means聚类算法首先保持

μ

不变，重复迭代更新

c

重复来最小化

J

，然后在保持

c

不变，更新参数

μ

来最小化

J

。因此，

J

一定单调递减，即

J

一定收敛。理论上，K-Means聚类算法可能在几个不同的聚类质心之间振荡，即不同

c

和(或)

μ

可能得到相同的

J

值。下图显示了K-Means的实验结果。图a表达了初始的数据集，假设

k = 2

。在图b中，我们随机选择了两个

k

类所对应的类别质心，即图中的红色质心和蓝色质心，然后求出样本集中所每组样本到这两个质心的距离，并标记每个样本的类别为和该样本距离最小的质心的类别，如图c所示，经过计算样本和红色质心和蓝色质心的距离，我们得到了所有样本点的第一轮迭代后的类别。此时我们对我们当前标记为红色和蓝色的点分别求其新的质心，如图d所示，新的红色质心和蓝色质心的位置已经发生了变动。图e和图f重复了我们在图c和图d的过程，即将每组样本的类别标记为距离最近的质心的类别并求新的质心。最终我们得到的两个类别如图f。
斯坦福机器学习笔记（六）——K-Means聚类算法

距离函数

J

是非凸函数，因此在函数

J

上的坐标下降不能保证收敛到全局最小值。换句话说，K-Means聚类算法可能陷入局部最优解。如果担心陷入局部最小值，常见手段一个常见的事情就是多次运行K-Means聚类算法，每次运行采用不同聚类质心

μ

。然后，在所有不同聚类中，选择

J

值最小对应的聚类结果。

缺点与改进

根据自己实验的结果来看，虽然K-Means算法理论推导简单，代码也容易实现，但是K-Means聚类算法也存在如下缺点：

对于离群点和孤立点非常敏感。
由于K-Means聚类算法属于无监督学习算法，没有训练样本分类输入，因此，K值的选择非常重要。
初始聚类质心的选择也极大影响聚类结果。
由于距离函数是训练集与对应聚类质心的之间差值的二范式的平方和，那么最终聚类形成的大部分是球状簇。

针对上述缺点，对应的改进策略如下：

针对缺点1，首先利用离群点检测的LOF算法检测出离群点，去除离群点后再聚类，可以减少离群点和孤立点对于聚类效果的影响。
针对缺点2和3，可以使用K-Means++或者二分K-Means算法来自适应随机初始化聚类质心的位置与个数。
针对缺点4，通过寻找更好度量距离的函数加以改进。或者采用基于密度的聚类算法如DESCAN算法。