机器学习（西瓜书）——聚类

聚类

聚类任务
性能度量
距离计算
原型聚类

k均值算法
学习向量量化
高斯混合聚类

密度聚类
层次聚类

聚类任务

聚类属于无监督学习，即训练样本的标记信息是未知的。

性能度量

聚类性能度量也称为聚类有效性指标。

簇内相似度和簇间相似度
内部指标和外部指标。内部指标指的聚类参考内部模型。外部指标指的是参考外部指标。

Jaccard系数；FM指数；Rand指数

DB指数；Dunn指数；

距离计算

距离也是一种度量标准，称之为距离度量。
闵可夫斯基距离
当p=2 时，即是欧式距离（Euclidean Distance）
当p= 1时，即是曼哈顿距离（Manhattan Distance）

数据之间的距离计算，需要根据数据的属性进行采取不同的方法，属性分为连续属性和离散属性。或者被分为有序属性和无序属性。
对于无序属性可以采取VDM（Value Difference Metric）测量方式。
另外也可以采取将闵可夫斯基距离和VDM结合的方式。这是一种混合度量距离的方式。
对于重要性不同的属性，可以采取加权距离的方式

原型聚类

k均值算法

k均值算法通过采取最小化数据和聚类中心的平方误差。算法原理如下图所示：
机器学习（西瓜书）——聚类

学习向量量化

学习向量量化（Learning Vector Quantization,简称LVQ）。学习向量量化假设训练数据具有类别标记。算法原理如下图所示
机器学习（西瓜书）——聚类

高斯混合聚类

高斯混合聚类采取概率原型来表达聚类原型。算法原理如下：
机器学习（西瓜书）——聚类

密度聚类

密度聚类基于密度的聚类（density-based clustering）

DBSCAN是一种著名的密度聚类算法，它是基于邻域参数来刻画样本密度分布。
机器学习（西瓜书）——聚类

层次聚类

层次聚类指的是在不同层次进行对数据进行划分。从而形成树形的聚类结构。数据集的划分可以采用自底向上或者自顶向下的层次聚类策略。
AGBNES是一种采用自底向上的聚合策略的层次聚类算法。
机器学习（西瓜书）——聚类

相关文章：

2022-12-23
2022-12-23
2021-05-31
2022-01-05
2021-05-27
2021-07-20
2021-06-23
2021-08-28

猜你喜欢

2021-11-29
2022-12-23
2021-06-18
2021-11-13
2022-12-23
2021-12-02

相关资源

下载 2021-06-26
下载 2023-03-03
下载 2021-06-05

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode