统计学基础（四）

因素：因素是一个独立的变量，也就是方差分析研究的对象，也称为因子。如：例1中，我们要分析饮料的颜色对饮料的销售量是否有影响，在这里，“饮料的颜色”是所要检验的对象，它就是一个因素。在有的书中把因素称为“因子”。
水平因素中的内容称为水平，它是因素的具体表现。如：例1中“饮料的颜色”这一因素中的水平有四个，即饮料的四种不同颜色：无色、粉色、桔黄色、绿色；它们是“饮料的颜色”这一因素的四种具体表现。因素的每一个水平可以看作是一个总体，比如：无色、粉色、桔黄色、绿色饮料可以看作是四个总体。
控制变量在方差分析中，能够人为控制的影响因素称为控制因素，或控制变量；如：例1中，“饮料的颜色”对于饮料的销售量而言，是能够人为控制的影响因素，称为控制变量。
随机变量在方差分析中，人为很难控制的影响因素称为随机因素，或随机变量；如：例1中，“人们对不同颜色的偏爱”对于饮料的销售量而言，是人为很难控制的影响因素，称为随机变量。
观察变量与观察值在方差分析中，受控制因素和随机因素影响的事物，称为观察变量。在每个水平下得到的样本数据称为观察值。如：例1中，销售量是观察变量，在每个饮料颜色下得到的样本数据（即表10－1中的数据）就是观察值。

2.2.2 方差分析的原理

从方差分析的目的来看，是要检验各个水平的均值μ1、μ2、…、μm是否相等（m为水平个数），而实现这个目的的手段是通过方差的比较（即考察各观察数据的差异）。在变量的观察值之间存在着差异。差异的产生来自于两个方面。

一个方面是由因素中的不同水平造成的，称之为系统性差异（或系统性误差）。如：饮料的不同颜色带来不同的销售量。

另一个方面是由于抽选样本的随机性而产生的差异，称之为随机性差异（或随机性误差）。如：相同颜色的饮料在不同的商场销售量也不同。两个方面产生的差异可以用两个方差来计量。

一个叫组间方差，即水平之间的方差，是衡量不同总体下各样本之间差异的方差。在组间方差里，既包括系统性误差，也包括随机性误差。如：在例1中，不同颜色的饮料在不同地点（超市）产品销售量之间的差异既有系统性误差（即由于人们对不同颜色的偏爱造成的差异），也有随机性误差（即由于抽样的随机性造成的差异）。不同颜色的饮料在不同地点（超市）产品销售量之间的方差即为组间方差。

另一个叫组内方差，即水平内部的方差，是衡量同一个总体下样本数据的方差。在组内方差里仅包括随机性差异。如：在例1中，可以把同一个颜色的饮料在不同地点（超市）产品销售量之间的差异看成是随机因素的影响，同一个颜色的饮料在不同地点（超市）产品销售量之间的方差即为组内方差。

如果不同的水平对结果没有影响，如: 饮料的不同颜色对销售量无影响，那么在水平之间的方差中，就仅仅有随机因素影响的差异，而没有系统性因素影响的差异。这样一来，组间方差与组内方差就应该非常接近，两个方差的比值就会接近于1；反之，如果饮料的不同颜色对销售量有影响，在组间方差中就不仅包括了随机性误差，也包括了系统性误差，这时，组间方差就会大于组内方差，两个方差的比值就会大于1。当这个比值大到某种程度时，我们就可以作出判断，说不同水平之间存在着显著性差异。一次，方差分析就是通过不同方差的比较，作出接受原假设或拒绝原假设的判断。如：例子中，判断饮料的不同颜色对销售量是否有显著性影响的问题，实际上也就是检验销售量的差异主要是由于什么原因所引起的。如果这种差异主要是系统性误差，我们就说饮料的不同颜色对销售量有显著性影响。

2.2.3 方差分析思路

从表中看到，20个数据各不相同，其原因可能有两个方面：

一是销售地点不同的影响。即使是相同颜色的饮料，在不同超市的销售量也是不同的。但是，由于这五个超市地理位置相似、经营规模相仿，因此，可以把不同地点产品销售量的差异看成是随机因素的影响。
二是饮料颜色不同的影响。即使在同一个超市里，不同颜色的饮料的销售量也是不同的。哪怕它们的营养成分、味道、价格、包装等方面的因素都相同，但销售量也不相同。这种不同，有可能是由于抽样的随机性造成的，也有可能是由于人们对不同颜色的偏爱造成的。

于是，上述问题就归结为检验饮料颜色对销售量是否有影响的问题。我们可以令μ1、μ2、μ3、μ4分别为四种颜色饮料的平均销售量，检验它们是否相等。如果检验结果显示μ1、μ2、μ3、μ4不相等，则意味着不同颜色的饮料来自于不同的总体，表明饮料颜色对销售量有影响；反之，如果检验结果显示μ1、μ2、μ3、μ4之间不存在显著性差异，则意味着不同颜色的饮料来自于相同的总体，可认为饮料颜色对销售量没有影响。