线性回归基础知识

线性回归定义

线性回归属于机器学习中监督学习的范畴。其训练集中的数据一般拥有多个输入变量（也称特征）和一个输出变量，我们对训练集中的数据进行拟合，得到一条近似曲线，并输出为确定的连续函数，即预测函数，是一个从输入变量x到输出变量y的关系函数。然后就可以使用该预测函数对输入的数据进行结果预测。

线性回归基础知识

如上图所示，红叉表示训练集中数据的坐标，蓝色线即为拟合的预期函数曲线。

预测函数及代价函数

假设回归模型中的数据只有一个输入变量，即只有一个特征，以房屋估价为例，特征为房屋尺寸，输出为该房屋的估价，此时为简单回归问题。假设训练集中有m个样本线性回归基础知识，即m组房屋尺寸和对应房屋估价的数据，计算机要根据这些样本来拟合出贴合样本点的预测函数。设预测函数为 =。不同的参数和的取值，会产生不同的预期函数，而他们与训练集数据的贴合程序也不同，如下图所示。

线性回归基础知识

我们定义“代价”为预测函数所预测的结果相比真实结果的误差，要使预测函数拟合的更好，那么就要使代价更小。接着我们引入代价函数线性回归基础知识，即当预测函数的参数取不同值的时候，代价的变化趋势。代价函数的具体数学表示可以有很多种，其中应用广泛的一种为：使预测值与实际值的差的平方最小，下面给出这种代价函数的数学表示：