卡方检验
卡方检验的百科解释:
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值为0,表明理论值完全符合。
在实际中我们常常用来推断变量与变量之间是否存在联系。
卡方值的计算
其中,A代表实际观测值,E代表理论推断值,卡方值的计算主要就是为了统计实际观测值与理论推断值的偏差程度;
公式中进行了平方处理,是为了避免偏差与偏差之间正负符号的抵消;公式中每项偏差均除于理论推断值是因为偏差是一个相对概念,并非绝对的,故需处于理论推断值本身。
举个例子(同百科例子):
现有男女各100人,已知该200人中,化妆人数共计110人,不化妆人数共计90人。
研究对象:
变量1:性别(男,女)
变量2:化妆与否
如果变量1与变量二没关系,那么我们的理论推断值应当是:
(1)化妆男人数=总体男人数*(化妆人数/总男女人数)=100*110/200=55人
(2) 不化妆男人数=男总数-化妆男人数=100-55=45人
同理可得(3)化妆女人数=55人 (4)不化妆女人数=45人
即理论推断值:
研究问题:
变量1性别与变量2化妆与否是否存在关系?我们提出Ho假设:变量1性别与变量2化妆与否 不存在关系。
卡方检验:
实际观测值分布:
计算卡方值
得到卡方值为129.3,那么如何根据该值进一步分析变量1性别与变量2化妆与否是否存在关系呢?
首先我们需要来认识一个概念:自由度,可以这么理解,自由度即为:对于一个有n个变量组成的问题,前k个变量的确定并不能使得该问题唯一确定,直至第k+1个变量确定后,该问题唯一确定,则对于该问题的自由度为k+1,例如具体问题中:
假定我们确定男生化妆人数为30人,根据约束条件我们可知其余3个,该问题被唯一确定,故该问题的自由度为1.
知道自由度为1,且卡方值为129.3后,查询卡方表:
其中F即为自由度,由表可知129.3>10.83,故我们可得Ho假设:变量1性别与变量2化妆与否 不存在关系成立的概率<0.1%
即变量1性别与变量2化妆与否显著相关.