6 聚类分析

文章目录

6.1 引言
6.2距离和相似系数

一距离
二相似系数

6.3系统聚类法

6.1 引言

现实中存在大量聚类问题。

聚类分析目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的,对类的数目和类的结构不必作任何假定。
在同一类对象在某种意义上倾向于彼此相似,不同类里的对象倾向于不相似。
聚类分析常常用来探索寻找“自然的”或“实在的”分类,且这样的分类应是对所研究的问题有意义的。
此外,聚类分析也能够用来概括数据。

判别分类和聚类分析都是研究事物分类(或组)的基本方法,但它们却有着不同的分类目的,彼此之间既有本质的区别又有一定的联系。
区别在于:在判别分类中,组的数目是已知的,我们将样品分配给事先已定义好的组(或类)之一;
聚类分析中,无论是类的数目还是类本身在事先都是未知的。
联系在于:如果组不是已有的,则对组的事先了解和形成有时可以通过聚类分析探索得到;还有,聚类分析的效果往往也可以通过由前两个
(或三个)费希尔判别函数得分产生的散点图(或旋转图)从直觉上进行评估。

根据分类对象不同
- Q型聚类分析和R型
- Q是指对样品的聚类,
- R是指对变量的聚类。
- 本章主要Q型。

6.2距离和相似系数

对样品(变量)分类,样品(或变量)间相似性如何度量?
这节,两相似性度量:距离和相似系数
两对象间相距越远
- 其距离就越大,
- 距离实际上是不相似性的度量。

距离和相似系数有着各种不同的定义,
- 这些定义与变量类型有关
间隔变量:变量用连续量表示,如长度
有序变量:变量度量时不用明确的数量表示,而用等级来表示,如某产品分为一等、二等、三等
名义变量:变量用一些类表示,
- 类之间无等级也无数量关系,
- 性别、职业、产品号

间隔变量也称定量变量,
有序和名义
- 统定性变量
- 属性变量
- 分类变量

对间隔变量,
- 距离常度量样品之间相似性,
- 相似系数常度量变量间相似性
相似系数也常用于度量基于有序或名义变量的样品之间的相似性。
本章基于间隔变量的样品聚类分析方法

一距离

6 聚类分析

聚类过程中,相距较近的样品点倾向于归为一类,
相距较远的样品点应属不同类。
常用的距离有如下几种:

Minkowski距离

二相似系数

对变量聚类时,常用相似系数作为变量间相似性度量。
一些应用中要看大小,另一些中要看相似系数绝对值大小
相似系数(其绝对值)越大,变量间相似性程度越高
聚类时,较相似的变量归一类,
- 不太相似的变量属不同类。
变量 $x_i$ 与 $x_j$ 的相似系数用 $c_{ij}$ 表示,
- 它一般满足:

6 聚类分析

常用的相似系数有如下

夹角余弦
$\theta_{ij}$ 是 $R^n$ 中
变量 $x_i$ 的观测向量与
变量 $x_j$ 的观测向量间的夹角
定义俩变量相似系数为 $\cos \theta_{ij}$
- 记作 $c_{ij}(1)$

6 聚类分析

相关系数
变量与变量的相似系数
- 为样本相关系数 $r_{ij}$ ,记作 $c_{ij}(2)$

6 聚类分析

如果变量 $x_i$ 与 $x_j$ 皆已标准化了
- 则它们间的夹角余弦就是相关系数

相似系数除常用来度量变量之间的相似性外有时也用来度量样品之间的相似性,同样,距
离有时也用来度量变量之间的相似性。由距离来构造相似系数总是可能的,如令
w 1+d
(6.2.7)
这里d为第i个样品与第j个样品的距离,c可作为相似系数,用来度量样品之间的相似性
然而距离必须满足定义距离的三个条件,所以不是总能由相似系数构造。高尔( Gower)证明
当相似系数矩阵(ca)为非负定时,如令
d=v2(1
(6.2.8)
则d满足距离定义的三个条件。

一般来说,同一批数据采用不同的相似性度量,会得到不同的分类结果。在进行聚类分析
的过程中,应根据实际情况选取合适的相似性度量。如在经济变量分析中,常用相关系数来描
述变量间的相似性程度。

6.3系统聚类法

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode