聚类
对一批没有类别标签的样本集,按照样本之间的相似程度分类,相似的归为一类,不相似的归为其它类。这种分类称为聚类分析,也称为无监督分类。
--聚类的质量(或结果)取决于对度量标准的选择。
--聚类结果因不同任务而不同。
--聚类结果因不同任务而不同。
挑战性问题
–可伸缩性
•可伸缩性是指聚类算法无论对于小数据集还是大数据集,都应有效;无论对小类别数据还是大别类数据,都应有效。
–具有不同类型的数据处理能力
•既可处理数值型数据,也可处理非数㨁型数据;既可处理离散数据,也可处理连续域内的数据。比如布尔型、时序型、枚举型、以及这些类型的混合。
–能够发现任意形状的聚类
•能够发现任意形状的簇,球状的、位于同一流形上的数据。因此,选择合适的距离度量很关键。
•可伸缩性是指聚类算法无论对于小数据集还是大数据集,都应有效;无论对小类别数据还是大别类数据,都应有效。
–具有不同类型的数据处理能力
•既可处理数值型数据,也可处理非数㨁型数据;既可处理离散数据,也可处理连续域内的数据。比如布尔型、时序型、枚举型、以及这些类型的混合。
–能够发现任意形状的聚类
•能够发现任意形状的簇,球状的、位于同一流形上的数据。因此,选择合适的距离度量很关键。
–能够处理高维数据
•既可处理属性较少的数据,也可处理属性较多的数据。
•在高维空间聚类更具挑战性,随着维数的增加,具有相同距离的两个样本其相似程度可以相差很远。对于高维稀疏数据,这一点更突出。
–对噪声鲁棒
•在实际中,绝大多数样本集都包含噪声、空缺、部分未知属性、孤立点、甚至错误数据。
•既可处理属性较少的数据,也可处理属性较多的数据。
•在高维空间聚类更具挑战性,随着维数的增加,具有相同距离的两个样本其相似程度可以相差很远。对于高维稀疏数据,这一点更突出。
–对噪声鲁棒
•在实际中,绝大多数样本集都包含噪声、空缺、部分未知属性、孤立点、甚至错误数据。
–具有约束的聚类
•在实际应用中,通常需要在某种约束条件下进行聚类,既满足约束条件,以希望有高聚类精度,是一个挑战性问题。
–对初始输入参数鲁棒
•具有自适应的簇数判定能力(一直没有解决好)。
•对初始聚类中心鲁棒。
–能够解决用户的问题
•聚类结果能被用户所理解,并能带来经济效益,特别是在数据挖掘领域。
•在实际应用中,通常需要在某种约束条件下进行聚类,既满足约束条件,以希望有高聚类精度,是一个挑战性问题。
–对初始输入参数鲁棒
•具有自适应的簇数判定能力(一直没有解决好)。
•对初始聚类中心鲁棒。
–能够解决用户的问题
•聚类结果能被用户所理解,并能带来经济效益,特别是在数据挖掘领域。
一、距离与相似度度量
距离
相似性
相似性度量
二、混合密度函数
三、K-均值聚类(K-means clustering)
根据迭代准则可分为两种:
1、样本点到类中心的欧氏距离
引入如下假设:
– 各类出现的先验概率均相等;
– 每个均本点以概率为1属于一个类(后验概率0-1近似);
– 各类出现的先验概率均相等;
– 每个均本点以概率为1属于一个类(后验概率0-1近似);
2、“最小误差平方和”准则
k-均值是在协方差矩阵为单位矩阵条件下的结果,只有均值越准确,对下一步的划分才越准确。
模糊k-均值聚类
模糊集
--在传统集合理论中,一个元素或者属于一个集合,或者不属于一个集合。对于模糊集而言,一个元素是以一定的程度属于某个集合,也可以以不同的程度属于几个集合。这一描述引伸出一个重要的概念--模糊集中元素的“隶属度”。
--隶属度函数是表示一个对象 x 属于集合 A 的程度,其自变量的取值范围为所有可能属于集合 A 的对象。
参考资料:
中国科学院大学硕士课《模式识别》ppt