统计学习方法笔记(十四):聚类方法

基本概念

  • 聚类是针对给定的样本,依据它们的特征的相似度或距离,将其归并到若干个“类”或“簇”的数据分析问题
  • 聚类属于无监督学习,因为只是根据样本的相似度或距离将其进行归类,而类或簇事先并不知道。

相似度或距离

  • 闵可夫斯基距离统计学习方法笔记(十四)

  • 马哈拉诺比斯距离:简称马氏距离,也是另一种常用的相似度,考虑各个分量(特征)之间的相关性与各个分量的尺度无关统计学习方法笔记(十四)

  • 用上面的距离度量相似度的时候都是距离越小,相似度越高

  • 样本之间的相似度也可以用相关系数(correlation coefficient)来表示。相关系数的绝对值越接近1,表示样本越相似;越接近0,表示样本越不相似。统计学习方法笔记(十四)

  • 夹角余弦:样本之间的相似度也可以用夹角余弦表示,夹角余弦越接近1,表示样本越相似;越接近0,表示越不相似统计学习方法笔记(十四)

类的常用特征

  • 类的均值,又称为类的中心,式子中的nG是类G的样本个数 统计学习方法笔记(十四)

  • 类的直径统计学习方法笔记(十四)

  • 类的样本散步矩阵(Scatter Matrix)AGA_G与样本协方差矩阵(Covariance Matrix)SGS_G
    AGA_G统计学习方法笔记(十四)
    SGS_G统计学习方法笔记(十四)
    其中m为样本的维数(样本属性或者说特征的个数)

类与类之间的距离

统计学习方法笔记(十四)

聚合聚类

  • 聚合聚类算法
    统计学习方法笔记(十四)

k均值聚类

  • 思想
    统计学习方法笔记(十四)

  • 算法
    统计学习方法笔记(十四)

总结

统计学习方法笔记(十四)

相关文章: