统计学习方法笔记（十四）

统计学习方法笔记（十四）：聚类方法

基本概念

聚类是针对给定的样本，依据它们的特征的相似度或距离，将其归并到若干个“类”或“簇”的数据分析问题
聚类属于无监督学习，因为只是根据样本的相似度或距离将其进行归类，而类或簇事先并不知道。

相似度或距离

闵可夫斯基距离
马哈拉诺比斯距离：简称马氏距离，也是另一种常用的相似度，考虑各个分量（特征）之间的相关性与各个分量的尺度无关。
用上面的距离度量相似度的时候都是距离越小，相似度越高
样本之间的相似度也可以用相关系数（correlation coefficient）来表示。相关系数的绝对值越接近1，表示样本越相似；越接近0，表示样本越不相似。
夹角余弦：样本之间的相似度也可以用夹角余弦表示，夹角余弦越接近1，表示样本越相似；越接近0，表示越不相似

类的常用特征

类的均值，又称为类的中心，式子中的nG是类G的样本个数
类的直径
类的样本散步矩阵（Scatter Matrix） $A_G$ 与样本协方差矩阵（Covariance Matrix） $S_G$
$A_G$ 为
$S_G$ 为
其中m为样本的维数（样本属性或者说特征的个数）

类与类之间的距离

统计学习方法笔记（十四）

聚合聚类

聚合聚类算法

k均值聚类

思想
算法

总结

统计学习方法笔记（十四）

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode