【机器学习】【聚类】

介绍

聚类算法对大量未标注数据，按照数据的内在相似性将数据集划分为多个类别，一种无监督算法。
/N个对象，K个簇， $K<=N$ 。

基于分层的聚类（hierarcal methods）
思想：对数据集进行逐层，直到某条件满足为止。
自下而上的分裂型和合并型
代表：BIRCH、CURE、CHAMELEON
基于划分的聚类（partitioning methods）
思想：给定K值，给出一个初始分组方法，然后反复迭代改变分组
标准：同一分组的记录越近越好，不同分组的记录越远越好
代表：k=-means, k-medoids、CLARANS
基于密度的聚类（density-based methods）
思想：不是基于距离，而是基于密度，克服距离算法只能发现“类圆形”的缺点。只要一个区域的点的密度大于某个阈值，就把它加到与之相近的聚类中。
代表：DBSCAN、OPTICS、DENCLUE
基于网格的聚类（grid-based methods）
思想：把数据空间划分为有限个单元的网格结构，所有处理都以单个单元为对象。
优点：处理速度很快，只与有多少个单元有关
代表：STING、CLIQUE、WaveCluster
基于模型的聚类（model-based methods）
思想：给每个聚类假定一个模型，去找能够满足这个模型的数据集。
潜在假设：目标数据集是由一系列的概率分布所决定
两个尝试方案：统计方法和神经网络

在n维空间中，由两个向量 $X=(x_1,x_2,..,x_n)^T$ ， $Y=(y_1,y_2,..,y_n)^T$ ，它们之间的距离反映两者的相似度，一般采用 $L_p$ 距离

$dist(X,Y) = (\sum_{i=1}^{n} |x_i - y_i|^P)^{\frac{1}{p}}$

当 $p\ge1$ ，我们称其为闵可夫斯基距离（Minkowski）距离

【机器学习】【聚类】

【机器学习】【聚类】

每一次迭代都确定K个类别中心，将数据点归到与之距离最近的中心点所在的簇，将类别中心更新为它的簇中所有样本的均值，反复迭代，直到类别中心不再变化或小于某个阈值

存在的基本假设：
我们认为可以选到一个中心点，使得cluster中所有点到该点的距离小于到其他cluster中心的距离。但是现实可能存在一些问题本身不可分，例如两个分布有重叠的部分，通常我们会选左边的分布，即使左右两边概率相等。

此为密度聚类方法，为了克服基于距离算法只能发现凸的聚类的缺点，可以发现任意形状聚类，且对噪声数据不敏感。只要样本点密度大于某个阈值，可以把样本添加到最近的簇中。
但是计算复杂度较大，需要建立空间索引来降低计算量。

全名：Density-Based Spatial Clustering of Applications with Noise
对象的 $\varepsilon$ 领域：给定对象在半径 $\varepsilon$ 内的区域
核心对象：给定数目m，若一个对象的领域至少包含m个对象，则称为该该对象的核心对象
直接密度可达：一个对象集合D，如果p时在q的 $\varepsilon$ 领域内，而q是一个核心对象，可以说对象p从对象q出发时直接密度可达。直观的说就是两个cluster重叠了
密度可达：一条对象链，有一个对象p是从对象q和m密度可达的，衔接过去。
密度相连：对象集合D中存在一个对象O，使得对p和q是从O关于 $\varepsilon$ 和m密度可达的，那么对象p和q关于 $\varepsilon$ 和m密度相连
噪声，不包含在任何簇中的对象
簇：最大的密度相连对象的集合

【机器学习】【聚类】

随机选择一个点A，设置 $\varepsilon$ 区域为半径区域，对象个数m为4，A点的区域有4个，所以A作为核心对象创建新簇，其他点标记为边缘点。
在边缘点上选取一个重复上面的步骤，寻找并合并核心对象直接密度可达的对象。反复上面过程，直到没有新的点可以更新簇，算法结束。形成以A为初始的一个簇，包括红点和黄点。
如果发现还有一些数据点未处理，再次产生一个类别来重启这个算法，遍历所有数据，若此点不是边缘点也不是中心点，标记为噪音。