多元统计:判别分析
一. 判别分析介绍
判别分析,是一种统计判别和分组技术,就一定数量样本的一个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量信息所属的样本进行判别分组。
解决问题:已知某种事物有几种类型,现在从各种类型中各取一个样本,由这些样本设计出一套标准,使得从这种事物中任取一个样本,可以按这套标准判别它的类型。
判别分析的实质: 判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互不相交,且它们的和集为R p,则称R1,R2,…,Rk为R p的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间R p构造一个“划分”,这个“划分”就构成了一个判别规则。
二. 距离判别法
1. 欧几里得距离与马氏距离的区别和联系
1.1欧几里得距离
欧几里得距离的局限有:
①在多元数据分析中,其度量不合理。
②会受到实际问题中量纲的影响。
1.2马氏距离
因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。
2. 距离判别法的基本思想和方法
距离判别问题分为: 两个总体的距离判别问题和多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。
两个总体的距离判别问题
设有协方差矩阵∑相等的两个总体G1和G2,其均值分别是1和 2,对于一个新的样品X,要判断它来自哪个总体。计算新样品X到两个总体的马氏距离D2(X,G1)和D2(X,G2),则
多个总体的判别问题