建模算法打卡第四周

线性回归模型

前面我们讲过曲线拟合问题。曲线拟合问题的特点是，根据得到的若干有关变量的
一组数据，寻找因变量与（一个或几个）自变量之间的一个函数，使这个函数对那组数
据拟合得最好。通常，函数的形式可以由经验、先验知识或对数据的直观观察决定，要
作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看，问题似乎已
经完全解决了，还有进一步研究的必要吗?
从数理统计的观点看，这里涉及的都是随机变量，我们根据一个样本计算出的那些
系数，只是它们的一个（点）估计，应该对它们作区间估计或假设检验，如果置信区间
太大，甚至包含了零点，那么系数的估计值是没有多大意义的。另外也可以用方差分析
方法对模型的误差进行分析，对拟合的优劣给出评价。简单地说，回归分析就是对拟合
问题作的统计分析。
具体地说，回归分析在一组数据的基础上研究这样几个问题：
（i）建立因变量 y 与自变量 $x_1,x_2,...,x_m$ 之间的回归模型（经验公式）;
（ii）对回归模型的可信度进行检验；
（iii）判断每个自变量 $x_i(i=1,2,...,m)$ 对 y 的影响是否显著；
（iv）诊断回归模型是否适合这组数据；
（v）利用回归模型对 y 进行预报或控制。

§2 一元线性回归

2.1 模型
一元线性回归的模型为
$y = β_0+β _1x + ε$ ，
式中， $β_0 ,β _1$ 为回归系数， ε 是随机误差项，总是假设总是假设 $ε- N (0,σ^2)$ ，则随机变量
$y-N(β_0+β _1x,σ^2)$
若对 y 和 x 分别进行了n 次独立观测，得到以下 n 对观测值
$(y_i,x_i),i=1,2,...n$
（2）这n 对观测值之间的关系符合模型
$y_i = β_0+β _1x + ε_i,i=1,2,...n$ （3）
这里， $x_i$ 是自变量在第i 次观测时的取值，它是一个非随机变量，并且没有测量误差。
对应于 $x_i,y_i$ 是一个随机变量，它的随机性是由 $ε_i$ 造成的. $ε_i- N (0,σ^2)$ 对于不同
的观测，当i ≠ j 时， $ε_i$ ,与 $ε_j$ 是相互独立的。

2.2 最小二乘估计方法

建模算法打卡第四周