聚类分析的基本目标是发现项目items/变量variables的自然分组natural grouping方法。
接近程度closeness或者相似性similarity/proximity
Euclidean distance 欧氏距离
x′=[x1,x2,...,xp],y′=[y1,y2,...,yp]
d(x,y)=(x−y)′(x−y)
statistical distance 统计距离
d(x,y)=(x−y)′S−1(x−y)
Hierarchical Clustering Methods 分层聚类方法
--------------·Linkage Method 连接法
1)single linkage 单连接法

将每个对象看成是一个类,我们的聚类从合并两个最接近的项目开始:
i,kmin(dik)=d53=2
对象5和3合并,形成聚类(35)。为确定下一个聚类水平,我们需要得到聚类(35)与其余对象1,2,4之间的距离,最近邻近点的距离为:
d(35)1=min{d31,d51}=min{3,11}=3d(35)2=min{d32,d52}=min{7,10}=7d(35)4=min{d34,d54}=min{9,8}=8
得到新的距离矩阵:

在这个距离阵中,各对聚类间最小距离为d(35)1=3,于是我们将聚类1与(35)合并在一起得到下一个聚类(135)
d(135)2=min{d(35)2,d12}=min{7,9}=7d(135)4=min{d(35)4,d14}=min{8,6}=6
我们得到下一个聚类水平的距离矩阵:

各对聚类之间最小最近邻近点距离为d42=5,于是我们将对象4和2合并,得到聚类(24)。
现在我们有两个不同的聚类(135)和(24),它们的最近临近点距离为:
d(135)(24)=min{d(135)2,d(135)4}=min{7,6}=6
最终的距离阵变为:

于是将聚类(135)和(24)合并,形成一个包含全部5个对象的聚类(12345),此时最近邻近点距离为6。
2)complete linkage 完全连接法

依旧首先得到聚类(35),但是接下来距离的计算方式为:
d(35)1=max{d31,d51}=mxa{3,11}=11d(35)2=max{d32,d52}=max{7,10}=10d(35)4=max{d34,d54}=max{9,8}=9
于是距离阵修正为:

下一次合并发生在两个最相似的组2和4之间,得到一个新的聚类(24),距离的计算方式为:
d(24)(35)=max{d2(35),d4(35)}=max{10,9}=10d(24)1=max{d21,d41}=9
于是距离阵修正为:

下一次合并产生聚类(124)。
在最后阶段,将组(35)和(124)合并成一个聚类(12345),距离水平为:
d(124)(35)=max{d1(35),d(24)(35)}=11
3)average linkage 平均连接法
我们仍从距离阵D={dik}中搜寻最接近/相似的对象开始,假定找到的是U、V,将这两个对象合并得到(UV),聚类(UV)和W之间的距离由下式确定:
d(UV),W=N(UV)NWi∑k∑dik
其中dik为聚类(UV)中的第i个对象与聚类W中第k个对象之间的距离,N(UV)和NW分别为(UV)和W中成员的个数。
Ward’s Hierarchical Clustering Method沃德的分层聚类法
建立在“联合两个聚类时“信息损失”最小”的这一想法基础上。
信息损失表现为ESS有所增大。
首先,给定聚类k,令ESSk为此聚类中每一个项目与类均值(中心点)的偏差平方和。若当前有K个聚类,则定义ESS=ESS1+ESS2+...+ESSK,若某对聚类的合并使得ESS增加最少(信息损失最少),则将这两个聚类合并。最初,每个聚类仅由一个项目组成,因而如果有N个项目,则ESSk=0,k=1,2,3...,N,故ESS=0;而在另一极端,当所有的聚类合并成由N个项目组成的组,则ESS的值为:
ESS=j=1∑N(xj−x)′(xj−x)
其中xj为与第j个项目相联系的多元测量值,而x则为总均值。
Nonhierarchical Clustering Methods: K-means Method
非分层聚类方法:K均值法

我们的目标是将这些项目分成K=2个聚类,使每个聚类内部的项目之间的距离比分别属于不同聚类的项目之间的距离小。
为了实施K=2均值法,我们将这些项目先随意分成两个聚类,如(AB)和(CD),然后计算这两个聚类中心(均值)的坐标(x1,x2)。


考虑初始类(AB)和(CD),中心坐标分别是(2,2)和(-1,-2)。假如项目A被移到组(CD)中,则新的组为(B)和(ACD),更新的中心为:

回到步骤1的初始分组,我们计算距离的平方:
若A不移动:
d2(A,(AB))=(5−2)2+(3−2)2=10d2(A,(CD))=(5+1)2+(3+2)2=61
若A移动到组CD:
d2(A,(B))=(5+1)2+(3−1)2=40d2(A,(ACD))=(5−1)2+(3+0.33)2=27.09
由于A到组(AB)中心的距离小于到组(ACD)中心的距离,因此A不更换组。
我们继续考虑B是否更换组的问题。我们有:
若B不移动:
d2(B,(AB))10d2(B,(CD))=9
若B移动到组CD:
d2(B,(A))=40d2(B,(BCD))=4
由于B到组(AB)中心的距离大于到组(BCD)中心的距离,因此B更换组。
于是我们得到类(A)和(BCD),中心分别我(5,3)和(-1,-1)。
在上述新的分类下,我们考虑C的更换问题。
若C不移动:
d2(C,(A))=41d2(C,(BCD))=5
若C移动到组(A):
d2(C,(AC))=10.25d2(C,(BD))=11.25
由于C到组(BCD)中心的距离小于到组(AC)中心的距离,因此C不更换组。
如此继续,我们发现,没有更换再发生,最终的K=2类为(A)和(BCD)
等价地,上述寻找最终聚类的方法可以采用以下准则实现:
minE=∑di,c(i)2
di,c(i)2是从项目i到其所在类的中心的距离平方。
在此例中,总共有7个可能的K=2个类的聚类:
A,(BCD)B,(ACD)C,(ABD)D,(ABC)(AB),(CD)(AC),(BD)(BC),(AD)
对于聚类{A,(BCD)}:
A:dA,c(A)2=0(BCD):dB,c(B)2+dC,c(C)2+dD,c(D)2=4+5+5=14
因此,∑di,c(i)2=0+14=14
对于其他聚类,不难验证:
B,(ACD)∑di,c(i)2=48.7C,(ABD)∑di,c(i)2=27.7D,(ABC)∑di,c(i)2=31.3(AB),(CD)∑di,c(i)2=28(AC),(BD)∑di,c(i)2=27(BC),(AD)∑di,c(i)2=51.3
由于聚类{A,(BCD)}有最小的∑di,c(i)2=0+14=14,这是最终的划分。