线性回归
回归是统计学术语,表示变量之间的某种数量依存关系,并由此引出回归方程,回归系数。
线性回归,数理统计中回归分析,用来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。要是是直线关系的话就是线性的。
最小二乘回归法
有俩变量,需要找出最合适的一条线,叫最佳拟合线,但是咋找呢,只是眼睛看是不行,因为有很大的主观性。
把这个直线y=a+bx叫做最佳拟合线。举例说明:
x表示预计天晴时数,用y表示相应的露天音乐会听众人数,只要能用音乐会听众数求出a和b的最合适数值,就有可靠的方法求出直线等式,并且预测时候也更准确。这样的目的,就是想让y的实际观察的值和x相对应的y的估计值的差距为最小的线。
这样一种的估计方法如下图所示:
距离平方之和叫做误差平方和。
再回头看一下目标是求出使得这个SSE最小的y=a+bx。
来先计算b
这个看起来好复杂鸭,但其实挺简单的,就是算,懒的话就直接用软件计算就行。
来求a
相关系数
这个相关系数是用来描述这个直线拟合度的,有正有负
这个r越接近±1,就说明这个相关性很强。
来总结一下
卡方分布
这个卡方就是检验统计量。
方差分析(ANOVA)
方差分析的基本假设是不同样本组的平均数之间的差异来源有两个:
1.实验变量,即样本的主要区别造成的差异(例如男和女),称为组间差异。用所有变量在各自组的均值与所有变量糅合在一块总均值之偏差平方和的总和表示,记作SSB,自由度是dfb。
2.随机误差,如测量误差造成的差异或者每个个体间的 差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSw,组内自由度为dfw。
总的偏差平方和SSt=SSB+SSw。
好复杂,还是举例子吧。
下面我们用一个简单的例子来说明方差分析的基本思想:
如某克山病区测得11例克山病患者和13名健康人的血磷值(mmol/L)如下:
患者:0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11
方差分析
方差分析
健康人:0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87
问该地克山病患者与健康人的血磷值是否不同?
从以上资料可以看出,24个患者与健康人的血磷值各不相同,如果用离均差平方和(SS)描述其围绕总均值的变异情况,则总变异有以下两个来源:
组内变异,即由于随机误差的原因使得各组内部的血磷值各不相等;
组间变异,即由于克山病的影响使得患者与健康人组的血磷值均值大小不等。
而且:SS总=SS组间+SS组内 v总=v组间+v组内
如果用单位均方(离差平方和除以自由度)代替离差平方和以消除各组样本数不同的影响,则方差分析就是用组间单位均方去除组内单位均方的商(即F值)与1相比较,若F值接近1,则说明各组均值间的差异没有统计学意义,若F值远大于1,则说明各组均值间的差异有统计学意义。实际应用中检验假设成立条件下F值大于给定显著性分布的概率可通过查阅F界值表(方差分析用)获得。
参考:
https://blog.csdn.net/lvsehaiyang1993/article/details/80397850