线性回归及推导

注：为使似然函数越大，则需要最小二乘法函数越小越好

线性回归中为什么选用平方和作为误差函数？假设模型结果与测量值误差满足，均值为0的高斯分布，即正态分布。这个假设是靠谱的，符合一般客观统计规律。若使模型与测量数据最接近，那么其概率积就最大。概率积，就是概率密度函数的连续积，这样，就形成了一个最大似然函数估计。对最大似然函数估计进行推导，就得出了推导后结果：平方和最小公式

线性回归及推导

注：

1.x的平方等于x的转置乘以x。

2.机器学习中普遍认为函数属于凸函数（凸优化问题），函数图形如下，从图中可以看出函数要想取到最小值或者极小值，就需要使偏导等于0。

线性回归及推导

注：批量梯度下降法BGD；

随机梯度下降法SGD；

小批量梯度下降法MBGD（在上述的批量梯度的方式中每次迭代都要使用到所有的样本，对于数据量特别大的情况，如大规模的机器学习应用，每次迭代求解所有样本需要花费大量的计算成本。是否可以在每次的迭代过程中利用部分样本代替所有的样本呢？基于这样的思想，便出现了mini-batch的概念。假设训练集中的样本的个数为1000，则每个mini-batch只是其一个子集，假设，每个mini-batch中含有10个样本，这样，整个训练数据集可以分为100个mini-batch。）