推断性分析
数据类型
从宏观角度上讲,数据可以被分成定性和定量两种。例如性别就属于定性的数据类型,是一种数据的特质;定量是数值型数据,例如考试成绩。为了对数据加以度量,我们继续把这两类数据类型划分下去,划分为:定类变量、定序变量、定距变量和定比变量
- 定类变量
- 定类变量是给数据定义一个类别。但要注意类别之间不能重合并且样本池中的每个样本都要有所属的类别。
- 例如男性/女性
- 定序变量
- 定序变量是在定类的基础上,把同一类别下的对象分一次序,即能把研究对象按照一定的高低或打消排序。
- 例如文化程度可以分为大学、高中、初中、小学、文盲。再比如老师在课上提及的李斯特量表。
- 注意: 各个定序变量的值之间没有确切的间隔距离,即没有确切的尺度来测量,定序变量的变量值只有大于或者小于的性质,只能排列出他们的顺序,不能反映出大于或小于的数量或距离。1
- 定距变量
- 定距变量是在定序的基础上,能确切地测量同一类别个案高低、大小次序之间的距离。但是定距变量是没有一个真正的零点的,即在定距变量中的0不是没有。
- 例如摄氏温度,摄氏零度不是没有温度
- 注意: 定距变量各类别之间的距离只能加减不能乘除
- 定比变量
- 定比变量是在定序的基础上,除了具有定距变量的特性外,还具有一个真正的零点,因而它具有乘除的数学特质
- 例如年龄和收入这两个变量,除了是定距变量,也是定比变量,其零点是绝对的。
方法选择
了解了数据类型,我们要知道我们在进行推断性分析时应该采用哪种统计方法。如下表格:
SPSS操作
常用方法介绍
交叉分析/卡方检验
是用来检验两个变量之间有没有关系的。即因变量的组别之间在自变量上的差别。有显著区别的话,考虑将这些变量放到模型或分析里。
关于什么是卡方检验可看这篇博文
- 交叉分析
- 两个变量(IV,DV)的交互表格
- 卡方检验
- 用来检验两个类别变量的关系的显著性(统计学意义)
t-test
我们在进行推断性分析时是用已知或可计算数据通过分析方法获得总体参数的。
- 概念
- T检验又称显著性检验,做出的结论是概率性的。它首先假设样本对应的总体参数(或分布)与某个已知总体参数(或分布)相同,然后根据剂量的分布规律来分析样本数据,利用样本信息判断是否支持这种假设,并对检验假设做出取舍抉择,做出的结论是概率性的,不是绝对的肯定或否定。
- 应用条件
- 当样本数量较小时,要求符合正态分布
当做两样本比较时,还要求两样本的总体方差相等等 - 用途
- 样本均数和群体均数的比较、两样本均数的比较
假设检验的步骤
- 建立检验假设和确定检验水准:
- 检验假设:分为两种假设,一种是无效假设H0,它是要否定的假设;一种是备选假设H1,它是H0的对立面。
- 检验水准:老师上课讲到了,学术界普遍将检验水准设置为0.05
- 选定检验方法和计算检验统计量:要根据研究设计的类型和统计推断的目的选用不同的检验方法。如成组设计的两样本均数的比较用t检验,多个样本均数的比较用F检验。
- 确定P值和做出推断结论
- p<=0.05时,结论为按所取检验水准拒绝H0,接受H1。得出结论的理由是:在H0的条件下,出现等于及大于现有检验统计量值的概率P≤ 0.05 ,是小概率事件,这在一次抽样中是不大可能发生的,即现有样本信息不支持H0因而拒绝它
- 若P>0.05,即样本信息支持H0,就没有理由拒绝它,此时只好接受它。
t-test类型
T检验有多种类型
- 可以分为只有一组样本的单体检验和有两组样本的双体检验。单体检验用于检验样本的分布期望是否等于某个值。双体检验用于检验两组样本的分布期望是否相等。
- 又分为配对双体检验和非配对双体检验。配对双体检验的两组样本数据是一一对应的,而非配对双体检验的两组数据则是独立的。比如药物实验中,配对双体检验适用于观察同一组人服用药物之前和之后,非配对双体检验适用于一组服用药物而一组不服用药物。
ANOVA
- 概念
- 方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”,用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。
- 用途
- 用来解决多组样本之间的平均数是否有显著的不同
- 原理
- 方差分析的基本假设是 不同样本组的平均数间的差异基本来源有两个:
1)实验变量
即样本的主要区别的造成的差异(例如性别差异),称为组间差异。用所有变量在各自己组的均值与所有变量糅合在一块儿总均值之偏差平方和的总和表示,记作SSb,其自由度为dfb。
2)随机误差
例如由于测量误差造成的差异或每个个体间的差异,称为组内差异。用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSw,组内自由度为dfw。
总偏差平方和 SSt = SSb + SSw
组内SSw、组间SSb除以各自的自由度(组内dfw =n-m,组间dfb=m-1,其中n为样本总数,m为组数),得到其均方MSw和MSb,MSb/MSw比值构成F分布。用F值与其临界值比较,作为在给定显著性推断各样本是否来自相同的总体的依据。 - 基本思想是
- 通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控变量对研究结果显著性的大小。
T检验与ANOVA的区别与联系
- 两者均是样本均数差别显著性的检验
- T检验和方差分析都要求样本符合正态分布
- T检验一般用于两组之间的比较,ANOVA一般是多组之间的比较
- 如果样本不符合正态分布,要用秩和检验
-
李斯特五级量表虽然分别被记为5、4、3、2、1,但量表是说明态度强弱或在这一量表上的不同状态的,有关态度的测量是没有确切的尺度的。 ↩︎