一、类和类的特征
设G为一个类,类中有m个元素,分别记为\(x^{(1)},x^{(2)},\cdots,x^{(m)}\), 常用到的特征有三个:
1.均值(重心)
\[\bar{x}_G=\frac{1}{m}\sum_{i=1}^{m}x^{(i)} \tag{1}
\]
2.样本离差阵和协方差阵
\[L_G=\sum_{i=1}^{m}(x^{(i)}-\bar{x}_G)(x^{(i)}-\bar{x}_G)^T\tag{2}
\]
\[\Sigma_G=\frac{L_G}{m-1}\tag{3}
\]
3.直径,有多种定义
\[D_G=\sum_{i=1}^{m}(x^{(i)}-\bar{x}_G)^T(x^{(i)}-\bar{x}_G)=tr(L_G) \tag{4}
\]
\[D_G=\max_{i,j \in G}d_{ij} \tag{5}
\]
二、类间距离
假设两个类\(G_p\)和\(G_q\),分别有\(k\)和\(m\)个样本, 重心分别为\(x_p\)和\(x_q\), 两个类的距离定义为\(G(p,q)\)。
1.最短距离法
两个类的距离取决于最邻近的两个样本的距离。
\[D_G(p,q)=\min{\{d_{jl}|j \in G_p,l \in G_q \}}\tag{6}
\]
2. 最长距离法
两个类的距离取决于最远的两个样本的距离。
\[D_G(p,q)=\max{\{d_{jl}|j \in G_p,l \in G_q \}}\tag{7}
\]
3.重心法
\[D_c(p,q)=d_{\bar{x}_p\bar{q}_q}
\]
二、系统聚类法
1.流程
flowchat
st=>start: 开始
e=>end: 结束
op1=>operation: 计算n个样品的两两间的距离
op2=>operation: 构造n个类,每个样品为独立的一个类
op3=>operation: 合并最近的两个类为一个新类
op4=>operation: 计算新类到各个类的距离
cond=>condition: 累的个数是否为1
st->op1->op2->op3->op4->cond
cond(yes)->e
cond(no)->op3
2.示例
以下数据为5个省份居民消费在8个指标的的支出占比。
用欧式距离来衡量各个样本间的距离,用重心法衡量各个类间的距离。
计算出各个省之间的距离如下:
发现最小距离为195.14,于是将对应的省份合成一类,在计算相对应的距离。
最后得到聚类的谱系图: