6.1 引言

  • 现实中存在大量聚类问题。

  • 聚类分析目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的,对类的数目和类的结构不必作任何假定。
  • 在同一类对象在某种意义上倾向于彼此相似,不同类里的对象倾向于不相似。
  • 聚类分析常常用来探索寻找“自然的”或“实在的”分类,且这样的分类应是对所研究的问题有意义的。
  • 此外,聚类分析也能够用来概括数据。

  • 判别分类和聚类分析都是研究事物分类(或组)的基本方法,但它们却有着不同的分类目的,彼此之间既有本质的区别又有一定的联系。
  • 区别在于:在判别分类中,组的数目是已知的,我们将样品分配给事先已定义好的组(或类)之一;
  • 聚类分析中,无论是类的数目还是类本身在事先都是未知的。
  • 联系在于:如果组不是已有的,则对组的事先了解和形成有时可以通过聚类分析探索得到;还有,聚类分析的效果往往也可以通过由前两个
    (或三个)费希尔判别函数得分产生的散点图(或旋转图)从直觉上进行评估。

  • 根据分类对象不同
    • Q型聚类分析和R型
    • Q是指对样品的聚类,
    • R是指对变量的聚类。
    • 本章主要Q型。

6.2距离和相似系数

  • 对样品(变量)分类,样品(或变量)间相似性如何度量?
  • 这节,两相似性度量:距离和相似系数
  • 两对象间相距越远
    • 其距离就越大,
    • 距离实际上是不相似性的度量。

  • 距离和相似系数有着各种不同的定义,
    • 这些定义与变量类型有关
  • 间隔变量:变量用连续量表示,如长度
  • 有序变量:变量度量时不用明确的数量表示,而用等级来表示,如某产品分为一等、二等、三等
  • 名义变量:变量用一些类表示,
    • 类之间无等级也无数量关系,
    • 性别、职业、产品号

  • 间隔变量也称定量变量,
  • 有序和名义
    • 统定性变量
    • 属性变量
    • 分类变量

  • 对间隔变量,
    • 距离常度量样品之间相似性,
    • 相似系数常度量变量间相似性
  • 相似系数也常用于度量基于有序或名义变量的样品之间的相似性。
  • 本章基于间隔变量的样品聚类分析方法

一 距离

6 聚类分析

  • 聚类过程中,相距较近的样品点倾向于归为一类,
  • 相距较远的样品点应属不同类。
  • 常用的距离有如下几种:

  • Minkowski距离

二 相似系数

  • 对变量聚类时,常用相似系数作为变量间相似性度量。
  • 一些应用中要看大小,另一些中要看相似系数绝对值大小
  • 相似系数(其绝对值)越大,变量间相似性程度越高
  • 聚类时,较相似的变量归一类,
    • 不太相似的变量属不同类。
  • 变量xix_ixjx_j的相似系数用cijc_{ij}表示,
    • 它一般满足:

6 聚类分析

  • 常用的相似系数有如下

  • 夹角余弦
  • θij\theta_{ij}RnR^n
  • 变量xix_i的观测向量与
  • 变量xjx_j的观测向量间的夹角
  • 定义俩变量相似系数为cosθij\cos \theta_{ij}
    • 记作cij(1)c_{ij}(1)

6 聚类分析

  • 相关系数
  • 变量与变量的相似系数
    • 为样本相关系数rijr_{ij},记作cij(2)c_{ij}(2)

6 聚类分析

  • 如果变量xix_ixjx_j皆已标准化了
    • 则它们间的夹角余弦就是相关系数

  • 相似系数除常用来度量变量之间的相似性外有时也用来度量样品之间的相似性,同样,距
    离有时也用来度量变量之间的相似性。由距离来构造相似系数总是可能的,如令
    w 1+d
    (6.2.7)
    这里d为第i个样品与第j个样品的距离,c可作为相似系数,用来度量样品之间的相似性
    然而距离必须满足定义距离的三个条件,所以不是总能由相似系数构造。高尔( Gower)证明
    当相似系数矩阵(ca)为非负定时,如令
    d=v2(1
    (6.2.8)
    则d满足距离定义的三个条件。

  • 一般来说,同一批数据采用不同的相似性度量,会得到不同的分类结果。在进行聚类分析
    的过程中,应根据实际情况选取合适的相似性度量。如在经济变量分析中,常用相关系数来描
    述变量间的相似性程度。

6.3系统聚类法

相关文章: