统计学习方法笔记(十四):聚类方法
基本概念
- 聚类是针对给定的样本,依据它们的特征的相似度或距离,将其归并到若干个“类”或“簇”的数据分析问题
- 聚类属于无监督学习,因为只是根据样本的相似度或距离将其进行归类,而类或簇事先并不知道。
相似度或距离
-
闵可夫斯基距离
-
马哈拉诺比斯距离:简称马氏距离,也是另一种常用的相似度,考虑各个分量(特征)之间的相关性与各个分量的尺度无关。
-
用上面的距离度量相似度的时候都是距离越小,相似度越高
-
样本之间的相似度也可以用相关系数(correlation coefficient)来表示。相关系数的绝对值越接近1,表示样本越相似;越接近0,表示样本越不相似。
-
夹角余弦:样本之间的相似度也可以用夹角余弦表示,夹角余弦越接近1,表示样本越相似;越接近0,表示越不相似
类的常用特征
-
类的均值,又称为类的中心,式子中的nG是类G的样本个数
-
类的直径
-
类的样本散步矩阵(Scatter Matrix)与样本协方差矩阵(Covariance Matrix)
为
为
其中m为样本的维数(样本属性或者说特征的个数)
类与类之间的距离
聚合聚类
- 聚合聚类算法
k均值聚类
-
思想
-
算法