模式识别学习笔记（12）——聚类

聚类

对一批没有类别标签的样本集，按照样本之间的相似程度分类，相似的归为一类，不相似的归为其它类。这种分类称为聚类分析，也称为无监督分类。

--聚类的质量(或结果)取决于对度量标准的选择。
--聚类结果因不同任务而不同。

挑战性问题

–可伸缩性
•可伸缩性是指聚类算法无论对于小数据集还是大数据集，都应有效；无论对小类别数据还是大别类数据，都应有效。
–具有不同类型的数据处理能力
•既可处理数值型数据，也可处理非数㨁型数据；既可处理离散数据，也可处理连续域内的数据。比如布尔型、时序型、枚举型、以及这些类型的混合。
–能够发现任意形状的聚类
•能够发现任意形状的簇，球状的、位于同一流形上的数据。因此，选择合适的距离度量很关键。

–能够处理高维数据
•既可处理属性较少的数据，也可处理属性较多的数据。
•在高维空间聚类更具挑战性，随着维数的增加，具有相同距离的两个样本其相似程度可以相差很远。对于高维稀疏数据，这一点更突出。
–对噪声鲁棒
•在实际中，绝大多数样本集都包含噪声、空缺、部分未知属性、孤立点、甚至错误数据。

–具有约束的聚类
•在实际应用中，通常需要在某种约束条件下进行聚类，既满足约束条件，以希望有高聚类精度，是一个挑战性问题。
–对初始输入参数鲁棒
•具有自适应的簇数判定能力（一直没有解决好）。
•对初始聚类中心鲁棒。
–能够解决用户的问题
•聚类结果能被用户所理解，并能带来经济效益，特别是在数据挖掘领域。